Statistique descriptive
Introduction :
La statistique est un ensemble de méthodes qui permettent le rassemblement, l’organisation et l’interprétation de données obtenues par l’observation d’activités de la vie courante ou en milieu professionnel.
Dans ce cours, nous allons voir comment organiser ces données et les interpréter à l’aide de paramètres statistiques centraux, tels que la médiane et la moyenne, ou de paramètres statistiques de dispersion, comme l’intervalle interquartile et l’écart type.
La médiane
La médiane
On considère un ensemble de $N$ valeurs d’une série statistique rangées dans l’ordre croissant.
Médiane :
La médiane d’une série statistique de $N$ valeurs ordonnées est la valeur $\text{Med}$ qui sépare cette série en deux groupes de même effectif.
Deux cas sont possibles : soit $N$ est pair, soit $N$ est impair.
- Dans le cas où $N$ est impair, $\text{Med}$ est la valeur qui se situe au milieu des $N$ valeurs ordonnées, $\text{Med}$ est donc la valeur centrale.
- Dans le cas où $N$ est pair, $\text{Med}$ est égal à la moyenne des deux valeurs centrales.
La médiane $\text{Med}$ d’une série statistique est telle que :
- au moins $50\ \%$ des valeurs de la série sont inférieures ou égales à $\text{Med}$ ;
- au moins $50\ \%$ des valeurs de la série sont supérieures ou égales à $\text{Med}$.
Considérons la série composée de $9$ valeurs, $N$ est impair :
$$\red {\underbrace {\small \text{Valeur centrale}}}$$ $$\small \underbrace{2 - 2 - 3 - 5}_{\tiny \text {4 valeurs en dessous}} - \red 5 - \underbrace{6 - 7 - 8 - 8}_{\tiny \text {4 valeurs au-dessus}}$$
La médiane est la valeur centrale, donc $\text{Med}=5$.
Considérons la série composée de $12$ valeurs, $N$ est pair :
$$\red {\underbrace {\small \text{Valeurs centrales}}}$$ $$\small \underbrace{2 - 2 - 3 - 5 - 5 - \red 6}_{\tiny \text {6 valeurs}} - \underbrace{\red 7 - 8 - 8 - 9 - 9 - 10}_{\tiny \text {6 valeurs}}$$
La médiane est la valeur moyenne des deux valeurs centrales $6$ et $7$ donc $\text{Med}=\dfrac{6+7}{2}=6,5$.
Les quartiles
Les quartiles
On considère un ensemble de $N$ valeurs d’une série statistique rangées dans l’ordre croissant comportant une valeur minimale ($\text{min}$) et une valeur maximale ($\text{max}$). Pour une série statistique donnée, il existe trois quartiles : $\text{Q}1$, $\text{Q}2$ et $\text{Q}3$.
Quartile :
En statistique descriptive, le terme « quartile » désigne chacune des trois valeurs qui divisent la série de données en quatre parts égales.
Premier quartile ($\text{Q}1$) :
On appelle premier quartile la plus petite valeur d’une série statistique, notée $\text{Q}1$, telle qu’au moins $25\ \%$ des valeurs de la série soient inférieures ou égales à $\text{Q}1$.
Deuxième quartile ($\text{Q}2$) :
Le deuxième quartile d’une série statistique est égal à la médiane de cette série.
Troisième quartile ($\text{Q}3$) :
On appelle troisième quartile la plus petite valeur de la série statistique, notée $\text{Q}3$, telle qu’au moins $75\ \%$ des valeurs de la série soient inférieures ou égales à $\text{Q}3$.
Reprenons la série statistique vue précédemment.
La position ou le rang du premier quartile $\text{Q}1$ de la série à $12$ valeurs est le plus petit entier supérieur ou égal à $\dfrac{12}{4}=3$, soit la troisième valeur de la série.
$$\small \underbrace{2}_{1^{\text{re}}} - \small \underbrace{2}_{2^{\text{e}}} - \small \underbrace{\overbrace{3}^{\normalsize{\text{Q}1}}}_{3^{\text{e}}} - 5 - 5 - 6 - 7 - 8 - 8 - 9 - 9 - 10$$
- La valeur correspondant à la position $3$ est $3$, donc $\text{Q}1 = 3$.
Le deuxième quartile $\text{Q}2$ est égal à la médiane de la série.
$$\small \underbrace{2}_{1^{\text{re}}} - \small \underbrace{2}_{2^{\text{e}}} - \small \underbrace{\overbrace{3}^{\normalsize{\text{Q}1}}}_{3^{\text{e}}} - 5 - 5 - 6 \overbrace{-}^{\normalsize{\text{Q}2}} 7 - 8 - 8 - 9 - 9 - 10$$
- $\text{Q}2=\text{Med}=\dfrac{6+7}{2}=6,5$, donc $\text{Q}2 = 6,5$.
La position ou le rang du troisième quartile $\text{Q}3$ de la série à $12$ valeurs est le plus petit entier supérieur ou égal à $\dfrac{3}{4}\times 12=9$, soit la neuvième valeur de la série.
$$\small \underbrace{2}_{1^{\text{re}}} - \small \underbrace{2}_{2^{\text{e}}} - \small \underbrace{\overbrace{3}^{\normalsize{\text{Q}1}}}_{3^{\text{e}}} - \small \underbrace{5}_{4^{\text{e}}} - \small \underbrace{5}_{5^{\text{e}}} - \small \underbrace{6}_{6^{\text{e}}}\overbrace{ - }^{\normalsize{\text{Q}2}}\small \underbrace{7}_{7^{\text{e}}} - \small \underbrace{8}_{8^{\text{e}}} - \small \underbrace{{\overbrace{8}^{\normalsize{\text{Q}3}}}}_{9^{\text{e}}} - 9 - 9 - 10$$
- La valeur se trouvant à la neuvième position dans la série est $8$, donc $\text{Q}3 = 8$.
Considérons maintenant la série statistique ci-dessous comportant $N = 23$ valeurs. Ce sont les notes obtenues par des élèves de mathématiques en classe de seconde.
Notes | $0$ | $1$ | $2$ | $3$ | $4$ | $5$ |
Effectifs | $1$ | $5$ | $6$ | $5$ | $2$ | $4$ |
La position ou le rang du premier quartile $\text{Q}1$ de la série à $23$ valeurs est le plus petit entier supérieur ou égal à $\dfrac{23}{4}=5,75$, soit le sixième élève.
- La note de ce sixième élève est égale à $1$, donc $\text{Q}1 = 1$.
Le deuxième quartile $\text{Q}2$, ou la médiane, est la note du douzième élève ($12$ étant la valeur centrale de la série).
- La note de ce douzième élève est $2$, donc $\text{Med} = \text{Q}2=2$.
La position ou le rang du troisième quartile $\text{Q}3$ de la série à $23$ valeurs est le plus petit entier supérieur ou égal à $\dfrac{3}{4}\times 23=17,25$, soit le dix-huitième élève.
- La note de ce dix-huitième élève est égale à $4$, donc $\text{Q}3 = 4$.
Écart interquartile :
On nomme écart interquartile la différence entre $\text{Q}3$ et $\text{Q}1$.
$$\text{Écart interquartile} = \text{Q}3-\text{Q}1$$
L’intervalle interquartile est $[\text{Q}1\ ;\ \text{Q}3]$.
Au moins $50\ \%$ des valeurs de la série statistique sont comprises dans $[\text{Q}1\ ; \text{Q}3]$.
La moyenne pondérée
La moyenne pondérée
Il ne faut pas confondre médiane et moyenne !
Pour saisir la différence entre ces deux paramètres statistiques centraux, il faut penser à un ensemble de valeurs rangées dans l’ordre croissant :
- la médiane correspond à une de ces valeurs de telle sorte qu’il y en a autant au-dessus qu’en dessous,
- et la moyenne est le nombre qui, multiplié par l’effectif total, est égal à la somme de toutes les valeurs.
Il existe plusieurs types de moyenne. Dans ce qui suit, nous allons définir la moyenne pondérée.
Moyenne pondérée :
La moyenne pondérée est la moyenne d'un certain nombre de valeurs affectées de coefficients.
On considère une série statistique d’effectif total $N$ tel que $N = n_1+n_2+n_3…n_p$ et donnée par le tableau suivant.
Valeurs | $x_1$ | $x_2$ | $x_3$ | … | $x_p$ |
Effectifs | $n_1$ | $n_2$ | $n_3$ | … | $n_p$ |
La moyenne pondérée de la série statistique donnée dans le tableau ci-dessus est :
$$\bar{x}=\dfrac{x_1 \times n_1 + x_2 \times n_2 + x_3 \times n_3 +…+x_p \times n_p}{N}$$
Considérons le nombre d’heures passées par jour par un adolescent sur les réseaux sociaux pendant un mois.
Heures par jour | $1$ | $2$ | $3$ | $4$ | $5$ | $6$ | $7$ |
Nombre de jours | $10$ | $5$ | $6$ | $4$ | $3$ | $1$ | $1$ |
On calcule la moyenne pondérée :
$$\begin{aligned} \bar{x}&=\dfrac{1\times 10+2\times 5+3\times 6+4\times 4+5\times 3+6\times 1+7\times 1}{30} \\ &=\dfrac{82}{30} \\ &\approx2,7 \end{aligned}$$
Le nombre moyen d’heures passées par jour par cet adolescent sur les réseaux sociaux est donc d’environ $2,7$ heures.
Linéarité de la moyenne :
- Si on multiplie par le même nombre toutes les valeurs d’une série statistique, la nouvelle moyenne est le produit de l’ancienne moyenne par ce nombre.
- Si on ajoute le même nombre à toutes les valeurs d’une série statistique, la nouvelle moyenne est la somme de l’ancienne moyenne et de ce nombre.
- Si on retranche le même nombre à toutes les valeurs d’une série statistique, la nouvelle moyenne est la différence entre l’ancienne moyenne et ce nombre.
Un professeur de mathématiques a noté sur $10$ ses élèves lors d’un contrôle sur les statistiques.
La moyenne de la classe est de $5,5$ sur $10$. Le professeur veut reporter cette note sur $20$.
Cela revient à calculer la moyenne de la classe où chaque élève sera noté sur $20$. Pour cela, il suffit de multiplier chaque note par $2$ et de calculer la nouvelle moyenne.
D’après la première propriété ci-dessus, il suffit de prendre l’ancienne moyenne $5,5$ et de la multiplier par $2$.
- La nouvelle moyenne de la classe est alors de $5,5\times 2 = 11$ sur $20$.
Un autre professeur a noté ses élèves lors d’un contrôle sur les statistiques.
La moyenne de la classe est de $12$ sur $20$, mais le professeur a oublié $3$ points dans la note de chaque élève.
Il lui faut alors ajouter $3$ points à la note de chaque élève puis calculer la nouvelle moyenne.
Or, d’après la deuxième propriété ci-dessus, il lui suffit d’ajouter $3$ points à l’ancienne moyenne pour obtenir la nouvelle moyenne.
- La moyenne de la classe passe de $12$ à $12+3=15$ sur $20$.
L’écart type
L’écart type
Écart type :
L’écart type d’une série statistique, noté $\sigma$, est égal à la racine carrée de la moyenne des carrés des écarts de valeurs à la moyenne de la série statistique.
Plus simplement :
Valeurs | $x_1$ | $x_2$ | $x_3$ | … | $x_p$ |
Effectifs | $n_1$ | $n_2$ | $n_3$ | … | $n_p$ |
Avec $n_1+n_2+n_3+…n_p=N$, l’écart type est égal à :
$\sigma = \sqrt{\dfrac{n_1(x_1-\bar{x})^2+n_2(x_2-\bar{x})^2+…+n_p(x_p-\bar{x})^2}{N}}$
L’écart type est un nombre positif. Plus ce nombre est grand, plus les valeurs sont dispersées autour de la moyenne.
Considérons les résultats obtenus lors d’une évaluation par deux classes A et B d’élèves de seconde.
Classe A :
Notes | $0$ | $1$ | $2$ | $3$ | $4$ | $5$ |
Effectifs | $0$ | $0$ | $5$ | $6$ | $5$ | $0$ |
Classe B :
Notes | $0$ | $1$ | $2$ | $3$ | $4$ | $5$ |
Effectifs | $0$ | $2$ | $3$ | $6$ | $3$ | $2$ |
Les deux classes ont obtenu la même moyenne : $\bar{x}=3$.
Calculons les écarts types pour chaque série.
- Pour la classe A :
$$\begin{aligned} \sigma_A&=\sqrt{\dfrac{0(0-3)^2+0(1-3)^2+5(2-3)^2+6(3-3)^2+5(4-3)^2+0(5-3)^2}{16}}\\ &=\sqrt{\dfrac{10}{16}} \\ &\approx0,79 \end{aligned}$$
- Pour la classe B :
$$\begin{aligned} \sigma_B&=\sqrt{\dfrac{0(0-3)^2+2(1-3)^2+3(2-3)^2+6(3-3)^2+3(4-3)^2+2(5-3)^2}{16}} \\ &=\sqrt{\dfrac{22}{16}} \\ &\approx 1,17 \end{aligned}$$
- Même si les deux classes ont obtenu la même moyenne à ce contrôle, on remarque que, pour la classe B, les notes sont plus dispersées autour de la moyenne que pour la classe A, car $\sigma_B$ est supérieur à $\sigma_A$.
Conclusion :
Nous avons vu dans ce cours que les indicateurs statistiques que sont la moyenne ou la médiane d’une série statistique composée de plusieurs valeurs indiquent autour de quel nombre se situent ces valeurs. En revanche, les indicateurs tels que l’écart interquartile et l’écart type indiquent si ces valeurs sont plus ou moins dispersées.
Avec tous ces indicateurs, vous pouvez dorénavant comparer plusieurs séries statistiques.