Jean-Christophe François & Claude Grasland Université Paris VII / UFR GHSS - Deug de Géographie- 1ere année / Année 1999-2000 / 2nd Semestre
|
|
|
|
|
1. LES PARAMETRES DE DISPERSION ABSOLUE
1.1 L'étendue
2.1 Distribution multimodale
3.1 Intérêt des paramètres de dispersion relative
Pour obtenir un cours de statistique détaillé, mais non centré sur la géographie, cliquez ici. |
Limites des valeurs centrales
Le résumé d'une distribution que donne une valeur centrale ne nous renseigne pas sur la dispersion des valeurs autour de cette valeur centrale, c'est-à-dire sur la tendance qu'elles-ont à se concentrer ou se disperser autour de celle-ci.
Exemple : Si l'on considère deux professeurs X et Y chargés de noter 9 élèves, peut-on apprécier leur manière de noter simplement en regardant la moyenne, la médiane ou le mode de leurs notes ?
Notation de 9 étudiants par les professeurs X et Y
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- A s'en tenir à l'analyse des valeurs centrales, on serait amené à conclure que les deux Pr X et Y notent rigoureusement de la même manière (moyenne=médiane=mode=10) mais on sent bien intuitivement que ce n'est pas le cas et qu'il existe une différence dans leur style de notation. Cette différence tient au fait que le professeur X "concentre" ses notes autour de 10 alors que le professeur Y "disperse" davantage ses notes autour de la valeur de référence.
Dispersion statistique : On
appelle dispersion statistique, la tendance qu'ont les valeurs de la distribution
d'un caractère à s'étaler, à se disperser les
unes par rapport aux autres ou de part et d'autre d'une valeur centrale.
On distingue la dispersion absolue (mesurée dans l'unité
de mesure du carctère) et la dispersion relative (mesurée
par un nombre sans dimension).
LES PARAMETRES DE DISPERSION
ABSSOLUE
Les paramètres de dispersion absolue indiquent de combien les valeurs d'une distribution s'écartent en général de la valeur centrale de référence. Un paramètre de dispersion absolue s'exprime toujours dans l'unité de mesure de la variable considérée. Les quatre paramètres de dispersion absolue les plus courants sont l'étendue, l'intervalle interquantiles, l'écart absolu moyen et l'écart type.
1) Etendue : l'étendue d'une distribution est égale à la différence entre la plus grande et la plus petite valeur de la distribution :
Etendue de X = Xmax - Xmin
2) Mesures de la dispersion statistique
en référence à la médiane
Quantiles : on appelle quantiles
les valeurs du caractère qui définissent les bornes d'une
partition en classes d'effectifs égaux.
- Les quartiles sont les trois valeurs qui permettent de découper la distribution en quatre classes d'effectifs égaux. On les note Xq1 , Xq2 et Xq3.
Partition du caractère Xmin Xq1 Xq2 Qq3 Xmax
fréquence des effectifs 25% 25% 25% 25%
Remarque : Xq2 est égal à la médiane.
- L'intervalle interquartile est l'étendue de la distribution sur laquelle se trouvent concentrée la moitié des éléments dont les valeurs de X sont les moins différentes de la médiane. On exclut alors de la distribution les 25% des valeurs les plus faibles et les 25 % des valeurs les plus fortes de X. Cet intervalle se note:(Xq3-Xq1).
- Les déciles sont les neufs valeurs de X qui permettent de découper la distribution en dix classes d'effectifs égaux. 0n les note Xd1...Xd9.
- L'intervalle interdécile est l'étendue de la distribution sur laquelle se trouvent concentrés 80% des éléments dont les valeurs de X sont les moins différentes de la médiane. On exclut alors de la distribution les 10 % des valeurs les plus faibles et les 10 % des valeurs les plus fortes. Il se note (Xd9-Xd1).
3) Mesures de la dispersion statistique
en référence à la moyenne arithmétique
3-1 Ecart absolu moyen : Ce paramètre est la moyenne arithmétique de la valeur absolue des écarts à la moyenne. C'est donc la "distance moyenne à la moyenne".
Calcul de l'écart absolu moyen des notes du Pr X
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- Variance : La variance, notée (s x) ² est la moyenne du carré des écarts à la moyenne.
La variance n'est pas un paramètre de dispersion absolue mais plutôt une mesure globale de la variation d'un caractère de part et d'autre de la moyenne arithmétique (quantité d'information). Pour obtenir un paramètre de dispersion absolue, on effectue la racine carrée de la variance, appelé écart-type et que l'on note s x
- Ecart-type : L'écart
type, noté sx
est la racine carré de la moyenne du carré des écarts
à la moyenne, c'est à dire la racine carrée de la
variance.
L'écart-type est une mesure
de dispersion par rapport à la moyenne qui intègre les valeurs
algébriques des écarts à la moyenne et qui pourra,
à ce titre être réintroduite dans des calculs algébriques
ultérieurs. Elle présente de plus l'avantage d'avoir une
signification
probabiliste que ne possède pas l'écart absolu moyen.
La théorie des probabilités permet en effet d'estimer la
chance qu'a une valeur d'être éloignée de la moyenne
de plus d'un certain nombre d'écart-types.
Lorsqu'une distribution est gaussienne (on dit aussi "normale") les probabilités de trouver les valeurs a une distance donnée de la moyenne sont les suivantes :
Calcul de la variance et de l'écart-type des notes du Pr X
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- Exemple : La variance des notes du Pr X étant de 3.11, on en déduit la valeur de l'écart-type (1.8) en calculant la racine carré de cette variance. Cette valeur de 1.8 peut être considérée comme une mesure de l'ordre de grandeur de la dispersion des notes autour de la moyenne. Si la distribution des notes du Pr X était gaussienne (ce qui est difficile à affirmer au vu de la faiblesse de l'échantillon) on devrait trouver environ deux tiers des notes dans l'intervalle [8.2 ; 11.8] qui correspond à la moyenne plus ou moins un écdart-type et 95% des notes dans l'intervalle [6.4 ; 13.8] qui correspond à la moyenne plus ou moins deux écarts-type. Le même calcul effectué sur les notes du Pr Y aboutit à un écart-type de 5.3 qui est beaucoup plus importante que celui des notes du professeur X. On retrouve la conclusion obtenue à l'aide de l'écart absolu moyen : les notes du Pr Y sont beaucoup plus dispersées que celles du Pr X.
LES PARAMETRES DE DISPERSION
RELATIVE
La comparaison des paramètres de dispersion absolue de deux caractères n'a de sens que si les deux caractères sont de même nature et de même ordre de grandeur. Dans le cas contraire, la comparaison n'est possible qu'en ayant recours à des mesures de dispersion relative, c'est à dire en effectuant le rapport entre un paramètre de dispersion absolue et la valeur centrale qui lui tient de référence .
Un paramètre de dispersion relative est une mesure de l'écart relatif des valeurs d'une distribution à une valeur centrale. C'est donc le rapport d'un paramètre de dispersion absolue divisé par une valeur centrale. On obtient un nombre sans dimension qui peut être exprimé en %.
Dispersion relative = Paramètre de dispersion absolue/Valeur centrale
- le coefficient interquartile relatif
C.I.R.(X) = (Xq3-Xq1)/ médiane X
- l'écart moyen relatif
E.M.R.(X) = E.A.M.(X) / moyenne(X)
- le coefficient de variation
C.V.(X) = s(X) / moyenne(X)
Remarque très importante : Le calcul d'un paramètre
de dispersion relative n'est possible que pour les caractères quantitatifs
positifs (toutes les modalités sont des nombres positifs).
|
|
|
-2 |
5 cm |
40 cm |
|
10 cm |
50 cm |
+2 |
15 cm |
60 cm |
1) en variation absolue, les différences sont plus fortes chez le bar que chez l'éperlan. Ainsi, on voit que les "grands" bars font en moyenne 20 cm de plus que les "petits" bars alors que les "grands" éperlans ne font que 10 cm de plus que les petits éperlans. C'est ce que traduit la différence des paramètres de dispersion absolue : l'écart-type est deux fois plus grand chez le bar que chez l'éperlan.
2) en variation relatives les conclusions sont tout à fait différentes. On constate en effet que les "grands" éperlans sont trois fois plus grands que les "petits" éperlans alors que les "grands" bars ne sont qu'une fois et demi plus grands que les "petits" bars. C'est donc chez l'éperlan que les variations relatives sont les plus fortes, ce qui apparaît facilement si l'on calcule un paramètre de dispersion relative tel que le rapport écart-type/moyenne (coefficient de variation ). Ce rapport est en effet de 25% chez l'éperlan alors qu'il n'est que de 10% chez le bar.
EXEMPLES DU CHAPITRE STAT.4