Chapitre 3 : LES VALEURS CENTRALES


Il existe trois valeurs centrales :

- le mode
- la médiane
- la moyenne

Après avoir appris à les calculer on étudiera leurs propriétés puis on verra comment la comparaison des trois valeurs centrales permet de rendre compte de la forme d'une distribution et quelles sont les valeurs centrales qui présentent les propriétés les plus intéressantes.

3.1 LE CALCUL DES VALEURS CENTRALES

3.2 VALEURS CENTRALES ET FORMES DES DISTRIBUTIONS

3.3 LES SIX PROPRIETES DE YULE
 
Menu général
Chapitre précédent
Chapitre suivant

 
 
 

3.1 Le calcul des valeurs centrales

 
Le mode

Le mode ou valeur dominante est la valeur la plus fréquente d'une distribution. Il se calcule toujours à partir d'un dénombrement des modalités du caractère. Comme pour le tableau de dénombrement, il faut distinguer le cas des caractères discrets et des caractères continus.

Caractère discret

Pour un caractère qualitatif ou quantitatif discret ayant un nombre de modalités inférieur au nombre d'éléments, le mode est la modalité qui a la fréquence simple la plus élevée (ou l'effectif le plus élevé, ce qui revient au même).
 

Exemple : Dans l'entreprise Zykosar (cf. Tableau 1 du  chapitre précédent) quel est la catégorie de salariés la plus représentée ?

Réponse : il y a 5 apprentis, 7 ouvriers, 5 cadres, 2 sous-directeurs et 1 directeur. La catégorie modale est donc celle des ouvriers.

Caractère quantitatif continu (ou assimilable)

Les modalités étant en nombre infini, il est peu probable que deux éléments aient la même valeur. Dans ce cas, le mode ne peut pas être défini directement, il faut au préalable établir une partition en classes. Le mode est alors le centre de la classe modale, c'est à dire la classe qui a la fréquence moyenne la plus élevée.

Attention ! la classe modale n'est pas forcément celle qui a l'effectif (c'est à dire la fréquence simple) la plus élevée : c'est la classe où les éléments sont le plus concentrés (c'est à dire celle où la fréquence moyenne est la plus élevée).
 

Exemple : Dans l'entreprise Zykosar (cf. Tableau 1 du  chapitre précédent) quel est le salaire modal?

Réponse : si l'on opte pour la partition en 3 classes présentée dans le tableau 3 du chapitre précédent, la classe modale est [1000; 2000[ car c'est celle qui a la fréquence moyenne la plus élevée et qui constitue le sommet de l'histogramme correspondant à cette mise en classes. Mais on pourrait obtenir un autre mode en modifiant la partition en classes.

Exercice : proposez une partition en classes telle que le salaire modal soit de 5500 CR $

Propriétés du mode

1) la détermination du mode d'un caractère continu rend obligatoire l'établisement d'une partition en classe. Pour une même distribution, on peut avoir des modes différents selon le découpage en classe qui a été choisi.

2) on détermine parfois le mode d'un caractère quantitatif en considérant parmi les valeurs arrondies celle qui a la fréquence simple la plus élevée. En réalité, cela revient à établir des classes très petites et d'amplitudes égales (fréquence moyenne=fréquence simple) et cette solution n'est pas la meilleure pour déterminer le mode car il y a beaucoup trop de classes.

3) Le mode correspond au sommet de l'histogramme. Lorsque celui-ci présente deux pics séparés par un creux, on dit que la distribution est bimodale. On distingue alors un mode principal et un mode secondaire. Plus rarement, on peut trouver des distributions ayant trois modes et plus.

Le mode est donc une valeur centrale qui est assez fragile pour les caractères continus. En revanche, c'est la seule valeur centrale possible pour les caractères discrets.
La médiane

On ne peut la calculer que pour les caractères quantitatifs. Les valeurs étant classées par ordre croissant, la médiane est la valeur du caractère qui partage celui ci en deux ensembles d'effectifs égaux : 50 % des valeurs lui sont supérieures et 50 % lui sont inférieures.

Calcul de la médiane à partir du tableau élémentaire
On ordonne le tableau, et on cherche l'élément qui partage la distribution en deux parties égales, c'est à dire celui qui a le rang (n+1)/2. Si la distribution a un nombre impair d'élément on trouve une valeur unique qui est la médiane, si la distribution a un nombre pair d'élément, on trouve deux valeurs qui déterminent un intervalle médian : on prend alors pour médiane le centre de cet intervalle médian.
 
Exemple : Dans l'entreprise Zykosar (cf. Tableau 1 du  chapitre précédent) quel est le salaire médian ?

Réponse : sachant qu'il y a 20 employés, le rang de la médiane est égal à (20+1)/2 soit 10.5. Le salaire médian est donc la moyenne du salaire des individus qui occupent le 10e rang et le 11e rang dans la distribution soit (2700+2900)/2. Le salaire médian dans l'entreprise Zykosar est de 2800 CR $.

Calcul de la médiane à partir du tableau de dénombrement et des fréquences cumulées

La distribution exacte des valeurs étant inconnue, on va utiliser la courbe des fréquences cumulées établie à partir des bornes des classes et en déduire la valeur de la médiane par interpolation linéaire.La médiane correspond en effet à la fréquence cumulée 50% et il est facile d'obtenir sa valeur soit par une lecture directe de la courbe des fréquences cumulées, soit par un calcul algébrique faisant appel à des notions élémentaires de géométrie.

 
Exemple : En s'appuyant sur la courbe des fréquences cumulées par classes de l'entreprise Zykosar, on cherche la valeur de salaire qui correspond à la fréquence cumulée 50% et on obtient approximativement 3000 CR $.

On peut aussi proposer à un calcul géométrique d'interpolation linéaire. Pour cela, on repère la classe j qui contient la médiane,  on note Fcum-j la fréquence cumulée à sa borne inférieure Binfj, Fj la fréquence simple et Aj son amplitude. En application du thèorème de Thalès on trouve
 
Médiane = Binfj + Aj * [(0.5-Fcum-j)/Fj]

Soit, dans l'exemple étudié :

Médiane = 2000 + 2000*[(0.5 - 0.25) / (0.4)] = 3250 CR $

On remarquera que le salaire médian estimé à l'aide du tableau de dénombrement est sensiblement différent de celui obtenu à l'aide du tableau des individus, car la mise en classe engendre une perte d'information.
 

Propriétés de la médiane
 

La médiane est la valeur la plus proche de toutes les autres c'est celle qui minimise les distances en valeur absolue :
 
N
Xi - A ½ est minimum si et seulement si A est la médiane du caractère X
i=1

 
 

Exemple d'application : localisation d'un dépôt d'essence pour desservir 6 stations services situées au km 0, 50, 100, 200, 300, 400, 700. La localisation optimale se situe au pointt médian des 6 valeurs c'est à dire au km 200 (distance minimale aux 6 stations service). Le tableau ci-dessous permet de vérifier que ni le point central (max-min)/2, ni le point moyen n'offrent une localisation meilleure.
Stations
situées
au km
Distance au point médian (200)
Distance au point moyen (250)
Distance au point central (350)
0
200
250
350
50
150
200
300
100
100
150
250
200
0
50
150
300
100
50
50
400
200
150
50
700
500
450
350
Total
1250
1300
1400

  La moyennne
 

On ne peut la calculer que pour les caractères quantitatifs continus, en principe. Dans la pratique, on la calcule aussi pour des caractères quantitatifs discrets ce qui conduit au résultat charmant que l'on peut avoir 2.2 enfants par femme (que faire du 0.2 ?).

Calcul de la moyenne à partir d'un tableau élémentaire
La moyenne est la somme des valeurs divisée par le nombre d'éléments :
 
N
S= S Xi / N
i=1

Cette formule correspond en réalité à un cas particulier de moyenne pondérée où l'on accorde le même poids à chacun des individus.
 

Exemple : Dans l'entreprise Zykosar (cf. Tableau 1 du  chapitre précédent) quel est le salaire moyen ?

Réponse : la masse salariale totale étant de 200 000 CR $ et le nombre de salariés étant de 20, on obtient un salaire moyen de 10 000 CR $. Ce salaire moyen ne reflète évidemment que de façon très imparfaite le salaire touché par la plupart des employés. Si l'on retirait le directeur, le salaire des 19 autres employés ne serait plus en moyenne que de (100 000 / 19) = 5263 CR $ . Si on retirait également les deux sous-directeur, le salaire des 17 employés restant ne serait plus alors en moyenne que de 2941 CR $ ...

On voit donc que la moyenne est, dans cet exemple, un très mauvais résumé de la distribution en raison de la présence de valeurs exceptionnelles (directeur) et d'une forte dissymétrie de l'histogramme (concentration des salaires dans les faibles valeurs et dispersion dans les fortes valeurs).
 

Calcul de la moyenne à partir d'un tableau de dénombrement

Puisque l'on ignore la répartition exacte des salaires à l'intérieur des classes, on va supposer que le centre de classe correspond à la moyenne des individus rassemblés dans cette classe. Le calcul sera donc effectué de la façon suivante :

 
                    N                               N
moyenne =  S   Ei . Ci / N          S    Fi. Ci
                    i=1                             i=1
Exemple : Comment estimer le salaire moyen de l'entreprise Zykosar à l'aide du  tableau 3 du chapitre précédent ?

Réponse : on assigne aux 5 individus de la première classe un salaire de 1500 CR$, aux 7 individus de la seconde classe un salaire de 3000 CR$ et aux 8 individus de la dernière classe un salaire moyen de 52000 CR$. Le salaire moyen est alors en théorie de 22225 CR$ ! Cette valeur est beaucoup plus élevée que le salaire moyen réel car les centres des deux dernières classes ne sont pas représentatifs et beaucoup plus élevés que les moyennes des classes auxquelles ils correspondent (respectivement 2500 CR$ et 21875 CR$).
 

Calcul de moyennes pondérées

Il arrive fréquemment que les lignes contenues dans un tableau élémentaire correspondent à des ensembles d'individus et non pas à des individus. Les valeurs du caractère correspondent alors déjà à des moyennes et la moyenne générale devra pondérer chaque valeur du caractère par le nombre d'individu qu'elle représente. Si on note X les modalités et P leur poids, le calcul sera le suivant :

 
                    N                      N
moyenne =  S   Pi . Xi /      S    Pi
                    i=1                   i=1
Exemple : Comment estimer le salaire moyen de l'entreprise Zykosar à l'aide du  tableau 2 du chapitre précédent ?

Réponse : en pondérant le salaire moyen de chaque catégorie d'employés par son effectif (nombre de salariés de la catégorie), on retrouve la valeur exacte du salaire moyen de l'entreprise Zykosar : 10 000 CR$
 
 

Moyenne des taux et taux moyens
Une application directe de la moyenne pondérée concerne les taux, c'est-à-dire les caractères X définis comme le rapport de deux caractères de stock V (numérateur) et P (dénominateur). Lorsque l'on considère un ensemble de N individus décrits par X, il faut clairement distinguer le taux moyen et la moyenne des taux. Le premier est la valeur du rapport V/P si tous les individus étaient fusionnés alors que le second est la moyenne des valeursd'individus de poids différents :
 
 
                         N                      N
taux moyen =  S    Pi . Xi /      S    Pi  = Vtot / Ptot
                        i=1                   i=1

                               N
moyenne des taux = S   Xi / N
                               i=1
 

 
 
Exemple : Quel serait le PIB par habitant d'une Chine réunifiée avec Tai-Wan ?
 
Pays
PIB ($ / hab.)
Pop (millions hab.)
Chine Populaire
 3500 
 1300
Taï-Wan
18500 
20
Source : Banque mondiale 1997

Réponse : la moyenne des taux aboutirait à une valeur de 11 000 $ par habitants qui ne restitue évidemment pas les conséquences de la réunification puisque cette moyenne accorde un même poids aux deux pays (la Chine populaire est 65 fois plus peuplée que Taï-Wan !).
Le calcul du taux moyen suppose donc que l'on effectue une moyenne pondérée qui aboutit à une valeur de 3727 $ par habitant. Le PIB par habitant de la Chine réunifiée ne s'accroîtrait donc que de moins de 250 $ par habitant par rapport à celui de la Chine Populaire !
 

Propriétés de la moyenne

(1) La somme des écarts à la moyenne est égale à zéro.
 
N
S (Xi - Moyenne) = 0
i=1

(2) La moyenne minimise les distances au carré
 
N
S (Xi - A)2  est minimum si et seulement si A est la moyenne du caractère X
i=1

Attention à ne pas confondre avec la médiane qui minimise la valeur absolue des distances et non pas les distances élevées au carré.
 
 

3.2 Valeurs centrales et forme des distributions


La comparaison des trois valeurs centrales ou l'examen de l'histogramme permettent de définir la forme des distributions. Selon la forme d'une distribution le meilleur résumé sera fourni par l'une ou l'autre des trois valeurs centrales.
 

Distributions bimodales ou multimodales

La distribution comporte plusieurs modes. Le mode principale est différent de la  moyenne et de la médiane qui ont de fortes chances de correspondre à une zone de dispersion des valeurs. Dans ce cas, ni la moyenne ni la médiane ne sont significatives. La distribution ne peut pas être résumée par une seule valeur. Elle se compose de deux groupes très différenciés.

=> le meilleur résumé est alors donné par les modes principaux et secondaires de la distribution.

 
Distribution unimodales symétriques
Lorsque la distribution est unimodale et symétrique, on va trouver à peu près moyenne = médiane = mode.

=> le meilleur résumé est alors donné par la moyenne car elle tient compte de toutes les observations et elle possède des propriétés statistiques intéressantes.

 
Distributions unimodales dissymétriques :

Deux cas peuvent se présenter :

- mode < médiane < moyenne : la distribution est dissymétrique à gauche, c'est à dire qu'il y a concentration pour les valeurs faibles et dispersion pour les valeurs fortes. C'est le cas le plus fréquent.

- moyenne < médiane <mode : la distribution est dissymétrique à droite, c'est à dire qu'il y a concentration pourles valeurs élevées et dispersion pour les valeurs faibles. Ce cas est plus rare que le précédent.

=> Lorsqu'il y a une dissymétrie marquée, la médiane est généralement préférable à la moyenne car elle est moins influencée par les valeurs exceptionelles qui sont souvent à l'origine de la dissymétrie. Si la dissymétrie est peu marquée, on pourra néanmoins utiliser la moyenne.


3.3  LES SIX PROPRIETES DE YULE
 
 

Le statisticien Yule (XIXème siècle) a définis six propriétés souhaitables pour les valeurs centrales.
 
 

(1) Etre définie de façon objective

Deux personnes différentes traitant la même information doivent trouver le même résultat en ce qui concerne le calcul des valeurs centrales. Ceci est vrai pour la moyenne et la médiane mais pas pour le mode qui dépend du choix de la partition en classe adoptée.

(2) dépendre de toutes les observations

La modification d'une seule observation doit entraîner une modification de la valeur centrale. Ceci est vrai de la moyenne mais pas du mode et de la médiane. Dans l'exemple de l'entreprise Zykosar, le fait de faire passer le salaire du directeur de 100 000 CR$ à 200 000 CR$ va modifier la moyenne (15000 CR$) mais sera sans incidence sur le mode ou la médiane.

(3) avoir une signification concrète

Bien que la moyenne paraisse "naturelle" elle est en fait très abstraite alors que le mode peut être défini comme la situation la "plus fréquente" et la médiane comme celle "qui divise en deux la distribution" (un individu sur deux a une valeur inférieure ou supérieure à celle-ci). Le caractère abstrait de la moyenne ressort bien quand on l'applique à des caractères discrets (e.g. que signifie 2.5 enfants par femmes ?)

(4) être simple à calculer

Cette préoccupation du XIXe siècle n'est plus de mise à l'époque des ordinateurs ... Toutes les valeurs centrales sont actuellement simples à calculer.

(5) être peu sensible aux fluctuations d'échantillonage

Il s'agit en apparence de l'inverse de la propriété (2). Mais on peut dire que cette propriété définit la robustesse de la mesure face à des erreurs qui peuvent apparaître (données mal codées, valeurs aberrantes). Dans le cas de l'entreprise Zykosar, si on avait tapé par erreur 1000000 CR$ pour le salaire du directeur au lieu de 100000 CR$, la moyenne aurait "explosé". La médiane aurait au contraire bien résisté et n'aurait pas été modifié. Le mode n'est guère robuste car le passage d'un individu d'une classe à une autre peut modifier la classe modale et donc changer le mode.

(6) se prêter au calcul algébrique

Lorsque l'on connaît les valeurs centrales de k échantillons E1...Ek d'effectifs respectifs P1...Pk, peut-on retrouver la valeur centrale de E qui est la réunion de tous ces échantillons ? La réponse est affirmative dans le cas de la moyenne (Cf. calcul de moyennes pondérées) mais négative dans ceux du mode et de la médiane. Ceci est un gros avantage en terme de stockage de l'information.


Le tableau ci-dessous permet de résumer les avantages et inconvénients des trois valeurs centrales.
 
Propriété de Yule
Mode
Mediane
Moyenne
1) est définie de façon objective
-
+
+
2) dépend de toutes les observations
-
-
+
3) a une signification concrète
+
+
-
4) est simple à calculer
+
+
+
5) est peu sensible aux fluctuations d'echantillonage
-
+
-
6) se prête au calcul algébrique
-
-
+

 

Les six propriétés de Yule sont plus ou moins bien vérifiées par chacune des valeurs centrales. Si en général la moyenne est préférable à la médiane et au mode, il faut tenir compte des caractéristiques de la distribution lorsque l'on choisit une valeur centrale et surtout bien préciser de quoi l'on parle.

La connaissance des valeurs centrales est toujours précieuse, car elle permet d'imaginer tout de suite la forme approximative de la distribution. Néanmoins, elle ne renseigne pas sur la dispersion des valeurs, c'est à dire sur leur éloignement par rapport aux valeurs centrales. Il est donc nécéssaire d'accompagner chaque valeur centrale d'un paramètre de dispersion.