GO152 : Introduction à la statistique et à la cartographie en géographie
Jean-Christophe François & Claude Grasland
Université Paris VII / UFR GHSS - Deug de Géographie- 1ere année / Année 1999-2000 / 2^nd Semestre

STAT.4 : LES PARAMETRES DE DISPERSION

PLAN

EXEMPLES

Retour au menu général

PLAN DU CHAPITRE STAT.4

INTRODUCTION : LIMITES DES VALEURS CENTRALES

1. LES PARAMETRES DE DISPERSION ABSOLUE

1.1 L'étendue

Définition

1.2 Les quantiles

Définition générale
Intervalle interquartile
Intervalle interdéciles

1.3 L'écart absolu moyen

Définition
Calcul

1.4 L'écart-type

Variance
Ecart-type
Signification probabiliste

2. RESUMES NUMERIQUES COMBINANT VALEURS CENTRALES ET PARAMETRES DE DISPERSION

2.1 Distribution multimodale

Mode 1 + Mode 2 + étendue

2.2 Distribution unimodale dissymétrique

Médiane + quantiles + étendue

2.3 Distribution unimodale symétrique

Moyenne + écart-type (ou eca. abs.moyen) + étendue

3. LES PARAMETRES DE DISPERSION RELATIVE

3.1 Intérêt des paramètres de dispersion relative

Comparaison des dispersions de deux distributions ayant des ordres de grandeur ou des unités de mesure différentes

3.2 Calcul des paramètres de dispersion relative

Forme générale : paramètre de dispersion absolue / valeur centrale
Exemples : coefficient de variation et intervalle interquartile relatif

3.3 Limites d'utilisation

Cas où la comparaison des dispersions relatives est possible
Cas où la comparaison des dispersions relatives est impossible.

Pour obtenir un cours de statistique détaillé, mais non centré sur la géographie, cliquez ici.

VOCABULAIRE DU CHAPITRE STAT.4

Limites des valeurs centrales

Le résumé d'une distribution que donne une valeur centrale ne nous renseigne pas sur la dispersion des valeurs autour de cette valeur centrale, c'est-à-dire sur la tendance qu'elles-ont à se concentrer ou se disperser autour de celle-ci.

Exemple : Si l'on considère deux professeurs X et Y chargés de noter 9 élèves, peut-on apprécier leur manière de noter simplement en regardant la moyenne, la médiane ou le mode de leurs notes ?

Notation de 9 étudiants par les professeurs X et Y

Etudiant	Notes du Pr X	Notes du Pr Y
A	7	0
B	8	5
C	9	9
D	10	10
E	10	10
F	10	10
G	11	11
H	12	15
I	13	20
mode	10	10
moyenne	10	10
médiane	10	10

A s'en tenir à l'analyse des valeurs centrales, on serait amené à conclure que les deux Pr X et Y notent rigoureusement de la même manière (moyenne=médiane=mode=10) mais on sent bien intuitivement que ce n'est pas le cas et qu'il existe une différence dans leur style de notation. Cette différence tient au fait que le professeur X "concentre" ses notes autour de 10 alors que le professeur Y "disperse" davantage ses notes autour de la valeur de référence.

Il est donc utile de compléter les valeurs centrales par un paramètre de dispersion absolue qui donne un ordre de grandeur de l'écart des valeurs entre elles ou, ce qui revient au même, de l'écart des valeurs à la valeur centrale de référence.

Dispersion statistique : On appelle dispersion statistique, la tendance qu'ont les valeurs de la distribution d'un caractère à s'étaler, à se disperser les unes par rapport aux autres ou de part et d'autre d'une valeur centrale. On distingue la dispersion absolue (mesurée dans l'unité de mesure du carctère) et la dispersion relative (mesurée par un nombre sans dimension).

LES PARAMETRES DE DISPERSION ABSSOLUE

Les paramètres de dispersion absolue indiquent de combien les valeurs d'une distribution s'écartent en général de la valeur centrale de référence. Un paramètre de dispersion absolue s'exprime toujours dans l'unité de mesure de la variable considérée. Les quatre paramètres de dispersion absolue les plus courants sont l'étendue, l'intervalle interquantiles, l'écart absolu moyen et l'écart type.

1) Etendue : l'étendue d'une distribution est égale à la différence entre la plus grande et la plus petite valeur de la distribution :

Etendue de X = X_max - X_min

Exemple : la dispersion des notes du Pr X est de 13-7=6 points alors que celle du Pr Y est de 20-0=20 points. L'écart maximum entre deux notes est donc plus élevé chez le Pr Y que chez le Pr X.

2) Mesures de la dispersion statistique en référence à la médiane

Quantiles : on appelle quantiles les valeurs du caractère qui définissent les bornes d'une partition en classes d'effectifs égaux.

- Les quartiles sont les trois valeurs qui permettent de découper la distribution en quatre classes d'effectifs égaux. On les note Xq1 , Xq2 et Xq3.

Partition du caractère X_min X_q1 X_q2 Q_q3 X_max

fréquence des effectifs 25% 25% 25% 25%

Remarque : X_q2 est égal à la médiane.

- L'intervalle interquartile est l'étendue de la distribution sur laquelle se trouvent concentrée la moitié des éléments dont les valeurs de X sont les moins différentes de la médiane. On exclut alors de la distribution les 25% des valeurs les plus faibles et les 25 % des valeurs les plus fortes de X. Cet intervalle se note:(Xq3-Xq1).

- Les déciles sont les neufs valeurs de X qui permettent de découper la distribution en dix classes d'effectifs égaux. 0n les note Xd1...Xd9.

- L'intervalle interdécile est l'étendue de la distribution sur laquelle se trouvent concentrés 80% des éléments dont les valeurs de X sont les moins différentes de la médiane. On exclut alors de la distribution les 10 % des valeurs les plus faibles et les 10 % des valeurs les plus fortes. Il se note (Xd9-Xd1).

Exemple : L'intervalle interquartile des notes du Pr X est de 2 pts puisque la moitié (50%) de ses notes sont comprises dans l'intervalle [9 ;11] une fois que l'on a retiré les 25% des notes les plus faibles et les 25% des notes les plus fortes. Il en va de même pour le Pr Y qui concentre également 50% de ses notes dans l'intervalle [9;11]. Pour ce critère, la dispersion des deux distributions est donc équivalente.

3) Mesures de la dispersion statistique en référence à la moyenne arithmétique

3-1 Ecart absolu moyen : Ce paramètre est la moyenne arithmétique de la valeur absolue des écarts à la moyenne. C'est donc la "distance moyenne à la moyenne".

Calcul de l'écart absolu moyen des notes du Pr X

i	x_i
A	7	3
B	8	2
C	9	1
D	10	0
E	10	0
F	10	0
G	11	1
H	12	2
I	13	3
total	90	12
moyenne	10	12/9 = 1.33

Exemple : L'écart absolu moyen de la notation du professeur X est de 1.3, ce qui signifie que les notes s'écartent en moyenne de 1.3 de la moyenne. Il n'y a donc pas, en moyenne, de gros écarts à la moyenne. Si on effectue le même calcul pour le professeur Y, on trouve un écart absolu moyen de 3.6, ce qui signifie que ses notes s'écartent généralement beaucoup plus de la moyenne. On peut donc conclure que, pour ce critère, la dispersion des notes du Pr Y est plus forte que celle du Pr X.

3-2 Variance et écart-type :

- Variance : La variance, notée (s x) ² est la moyenne du carré des écarts à la moyenne.

La variance n'est pas un paramètre de dispersion absolue mais plutôt une mesure globale de la variation d'un caractère de part et d'autre de la moyenne arithmétique (quantité d'information). Pour obtenir un paramètre de dispersion absolue, on effectue la racine carrée de la variance, appelé écart-type et que l'on note s x

- Ecart-type : L'écart type, noté sx est la racine carré de la moyenne du carré des écarts à la moyenne, c'est à dire la racine carrée de la variance.

L'écart-type est une mesure de dispersion par rapport à la moyenne qui intègre les valeurs algébriques des écarts à la moyenne et qui pourra, à ce titre être réintroduite dans des calculs algébriques ultérieurs. Elle présente de plus l'avantage d'avoir une signification probabiliste que ne possède pas l'écart absolu moyen. La théorie des probabilités permet en effet d'estimer la chance qu'a une valeur d'être éloignée de la moyenne de plus d'un certain nombre d'écart-types.

Lorsqu'une distribution est gaussienne (on dit aussi "normale") les probabilités de trouver les valeurs a une distance donnée de la moyenne sont les suivantes :

68.3 % des valeurs sont comprises entre (x-s x) et (x-s x)
95.5 % des valeurs sont comprise entre (x-2s x) et (x+2s x)
99.7 % des valeurs sont comprises entre (x-3s x) et (x+3s x)

Calcul de la variance et de l'écart-type des notes du Pr X

i	x_i
A	7	9
B	8	4
C	9	1
D	10	0
E	10	0
F	10	0
G	11	1
H	12	4
I	13	9
total	90	12
moyenne	10	var = 26/9 = 3.11

Exemple : La variance des notes du Pr X étant de 3.11, on en déduit la valeur de l'écart-type (1.8) en calculant la racine carré de cette variance. Cette valeur de 1.8 peut être considérée comme une mesure de l'ordre de grandeur de la dispersion des notes autour de la moyenne. Si la distribution des notes du Pr X était gaussienne (ce qui est difficile à affirmer au vu de la faiblesse de l'échantillon) on devrait trouver environ deux tiers des notes dans l'intervalle [8.2 ; 11.8] qui correspond à la moyenne plus ou moins un écdart-type et 95% des notes dans l'intervalle [6.4 ; 13.8] qui correspond à la moyenne plus ou moins deux écarts-type. Le même calcul effectué sur les notes du Pr Y aboutit à un écart-type de 5.3 qui est beaucoup plus importante que celui des notes du professeur X. On retrouve la conclusion obtenue à l'aide de l'écart absolu moyen : les notes du Pr Y sont beaucoup plus dispersées que celles du Pr X.

LES PARAMETRES DE DISPERSION RELATIVE

La comparaison des paramètres de dispersion absolue de deux caractères n'a de sens que si les deux caractères sont de même nature et de même ordre de grandeur. Dans le cas contraire, la comparaison n'est possible qu'en ayant recours à des mesures de dispersion relative, c'est à dire en effectuant le rapport entre un paramètre de dispersion absolue et la valeur centrale qui lui tient de référence .

Un paramètre de dispersion relative est une mesure de l'écart relatif des valeurs d'une distribution à une valeur centrale. C'est donc le rapport d'un paramètre de dispersion absolue divisé par une valeur centrale. On obtient un nombre sans dimension qui peut être exprimé en %.

Dispersion relative = Paramètre de dispersion absolue/Valeur centrale

- le coefficient interquartile relatif

C.I.R.(X) = (X_q3-X_q1)/ médiane X

- l'écart moyen relatif

E.M.R.(X) = E.A.M.(X) / moyenne(X)

- le coefficient de variation

C.V.(X) = s(X) / moyenne(X)

Remarque très importante : Le calcul d'un paramètre de dispersion relative n'est possible que pour les caractères quantitatifs positifs (toutes les modalités sont des nombres positifs).

TAILLE EPERLAN BAR

petite
-2
5 cm
40 cm

moyenne

10 cm
50 cm

grande
+2
15 cm
60 cm

1) en variation absolue, les différences sont plus fortes chez le bar que chez l'éperlan. Ainsi, on voit que les "grands" bars font en moyenne 20 cm de plus que les "petits" bars alors que les "grands" éperlans ne font que 10 cm de plus que les petits éperlans. C'est ce que traduit la différence des paramètres de dispersion absolue : l'écart-type est deux fois plus grand chez le bar que chez l'éperlan.
2) en variation relatives les conclusions sont tout à fait différentes. On constate en effet que les "grands" éperlans sont trois fois plus grands que les "petits" éperlans alors que les "grands" bars ne sont qu'une fois et demi plus grands que les "petits" bars. C'est donc chez l'éperlan que les variations relatives sont les plus fortes, ce qui apparaît facilement si l'on calcule un paramètre de dispersion relative tel que le rapport écart-type/moyenne (coefficient de variation ). Ce rapport est en effet de 25% chez l'éperlan alors qu'il n'est que de 10% chez le bar.

EXEMPLES DU CHAPITRE STAT.4

TAILLE	EPERLAN	BAR
petite -2	5 cm	40 cm
moyenne	10 cm	50 cm
grande +2	15 cm	60 cm