Jean-Christophe François & Claude Grasland Université Paris VII / UFR GHSS - Deug de Géographie- 1ere année / Année 1999-2000 / 2nd Semestre STAT.3 : LES VALEURS CENTRALES |
|
|
|
|
2.1 Les six propriétés de Yule
Pour obtenir un cours de statistique détaillé, mais non centré sur la géographie, cliquez ici. |
Valeurs centrales : Le but
des valeurs centrales est de résumer en une seule valeur l'ensemble
des valeurs d'une distribution statistique. Il existe trois valeurs
centrales : le mode, la médiane, la moyenne.
Le mode
Le mode, ou valeur dominante, est la valeur la plus fréquente d'une distribution. Cette valeur se calcule toujours à partir d'un dénombrement des modalités du caractère. Il faut cependant distinguer soigneusement le cas des caractères discrets et celui des caractères continus (Cf. Vocabulaire 2).
Caractère quantitatif ou qualitatif discret
On détermine tout d'abord la classe modale qui est celle dont la fréquence moyenne est la plus élevée C'est la classe où les valeurs sont le plus concentrées mais pas nécessairement celle qui comporte le plus d'individus. Visuellement, la classe modale correspond au sommet de l'histogramme.
Le mode est alors obtenu en prenant le centre de la classe modale, c'est-à-dire la moyenne de ses bornes supérieure et inférieure.
Lorsque l'histogramme d'une distribution
présente deux pics séparés par un creux, on dit que
la distribution est bimodale. On distingue alors un mode principal
et un mode secondaire. Plus rarement, on peut trouver des distributions
ayant trois modes et plus.
tranche de | Effectif | Fréquence |
salaire ($) | Simple | |
[0 ; 1000[ |
5
|
25%
|
[1000 ; 2000[ |
6
|
30%
|
[2000 ; 4000 [ |
8
|
40%
|
[4000 ; 8000] |
1
|
5%
|
Total |
20
|
100%
|
La médiane
Médiane = Binfj + [
Aj/ Fj* (0.5-Fascj-1)]
N
S½
xi - A½est minimum si et
seulement si A est la médiane de X
i=1
La moyenne
Moyenne simple
_
N
x = S
xi / N
i=1
_
N
N
x = S
Pi . Xi /
S
Pi
i=1
i=1
N.B. Dans le cas d'un caractère
X correspondant au rapport de 2 stocks V et P (X=V/P) il faut impérativement
pondérer le calcul de la moyenne par le dénominateur P si
l'on veut trouver la moyenne générale de l'ensemble de référence.
_
k
k
x = S
Xcj . nj / N = S
Xcj . fj
j=1
j=1
N
_
S (
xi - x ) = 0
i=1
2) La moyenne minimise la somme du carré des distances à tous les éléments
N
S(
xi - A)² est minimum
si et seulement si A est la moyenne du caractère X
i=1
Exercice : Quel serait le PIB par habitant d'une Chine réunifiée avec Tai-Wan ?
|
|
|
|
|
|
|
|
|
|
|
|
Avantages et inconvénients
des différentes valeurs centrales
Le statisticien Yule (XIXème siècle) a définis six propriétés souhaitables pour les valeurs centrales.
(1) Etre définie de façon objective
Deux personnes différentes traitant la même information doivent trouver le même résultat en ce qui concerne le calcul des valeurs centrales. Ceci est vrai pour la moyenne et la médiane mais pas pour le mode qui dépend du choix de la partition en classe adoptée.
(2) dépendre de toutes les observations
La modification d'une seule observation doit entraîner une modification de la valeur centrale. Ceci est vrai de la moyenne mais pas du mode et de la médiane
(3) avoir une signification concrète
Bien que la moyenne paraisse "naturelle" elle est en fait très abstraite alors que le mode peut être défini comme la situation la "plus fréquente" et la médiane comme celle "qui divise en deux la distribution" (un individu sur deux a une valeur inférieure ou supérieure à celle-ci). Le caractère abstrait de la moyenne ressort bien quand on l'applique à des caractères discrets (e.g. que signifie 2.5 enfants par femmes ?)
(4) être simple à calculer
Cette préoccupation du XIXe siècle n'est plus de mise à l'époque des ordinateurs ... Toutes les valeurs centrales sont actuellement simples à calculer.
(5) être peu sensible aux fluctuations d'échantillonage
Il s'agit en apparence de l'inverse de la propriété (2). Mais on peut dire que cette propriété définit la robustesse de la mesure face à des erreurs qui peuvent apparaître (données mal codées, valeurs aberrantes). La moyenne "explose" en présence d'une valeur aberrante alors que la médiane est très robuste. Le mode est en situation intermédiaire
(6) se prêter au calcul algébrique
Lorsque l'on connaît les valeurs centrales de k échantillons E1...Ek d'effectifs respectifs P1...Pk, peut-on retrouver la valeur centrale de E qui est la réunion de tous ces échantillons ? La réponse est affirmative dans le cas de la moyenne mais négative dans ceux du mode et de la médiane. Ceci est un gros avantage de la moyenne en terme de stockage de l'information.
On peut résumer les avantages des différentes valeurs centrales dans un tableau
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Valeurs centrales et forme des distributions
Distribution multimodale
Dans le cas d'une distribution multimodale, il existe plusieurs zones de concentration des valeurs séparées par des discontinuités. Dans ce cas, ni la moyenne, ni la médiane ne peuvent être considérées comme représentatives de la distribution . Le seul résumé statistiquement correct consiste à présenter les différents modes qui permettent de localiser les zones de concentration des valeurs.
Distributions unimodales dissymétriques (à droite ou à gauche)
Lorsqu'il existe une zone de concentration principale des valeurs, la distribution est unimodale. Mais la densité des individus peut décroître plus rapidement d'un côté que de l'autre et l'on parle alors de distribution unimodale dissymétrique à gauche ou à droite. Les trois valeurs centrales sont alors nettement séparées et le meilleur résumé statistique est fourni par la médiane.
Distributions unimodales symétriques
Les trois valeurs centrales sont à
peu près confondues et fournissent le même résumé
statistique. On préférera en général résumer
ces distributions à l'aide de la moyenne qui possède
des propriétés algébriques intéressantes (Cf.
6e pro.de Yule)