Introduction à la statistique sous Excel
Claude Grasland
Université Paris VII / UFR GHSS 
MODULE 4
Valeurs centrales et paramètres de dispersion
(Solutions)

Etape 1 : Etude de la population et de la superficie des pays du Monde en 1999

1.1) Calcul des paramètres statistiques à l'aide des fonctions de base d'EXCEL 97
 
 
Variable SUP99 POP99 DEN99 
Effectif 200 200 200
Quantiles      
Minimum 2 20000 0
D1 700 228000 9
Q1 22500 1200000 24
Q2 115500 5550000 68
Q3 507750 19250000 166
D9 1284100 59130000 317
Maximum 17075000 1254100000 21500
 Valeurs centrales      
Moyenne 680916 29906150 380
Mode 400(*) 430000(*) 100(*)
Médiane 115500 5550000 68
Paramètres de dispersion absolue      
Etendue 17074998 1254080000 21500
(Q3-Q1) 485250 18050000 143
(D9-D1)   1283400  58902000 308
Ecart-absolu moyen 856663 38524909 536
Ecart-type 1885920 116158236 1949
Paramètres de dispersion relative       
Coefficient de variation 277% 388% 513%
Coefficient interquartile relatif 420% 325% 210%
(*) estimations incorrectes du mode par EXCEL 97 : il faut faire des classes pour trouver la valeur du mode lorsqu'un caractère est continu (SUP99, DEN99) ou lorsqu'il est discret mais comporte un très grand nombre de modalités (POP99). Le mode est le centre de la classe modale, c'est-à-dire celle où les valeurs sont le plus concentrées (Effectif/Amplitude).
 

1.2) Calcul des paramètres statistiques à l'aide de l'utilitaire d'analyse "statistique descriptive" d'EXCEL 97
 
 
SUP99   POP99   DEN99  
Moyenne 680916.0 Moyenne 29906150 Moyenne 380.189126
Erreur-type 133689.3 Erreur-type 8234239.02 Erreur-type 138.145677
Médiane 115500.0 Médiane 5550000 Médiane 67.8105228
Mode 400.0 Mode 430000 Mode 100
Écart-type 1890652.7 Écart-type 116449725 Écart-type 1953.6749
Variance de l'échantillon 3574567523545.5 Variance de l'échantillon 1.3561E+16 Variance de l'échantillon 3816845.6
Kurstosis (Coefficient d'applatissement) 36.7 Kurstosis (Coefficient d'applatissement) 83.9599017 Kurstosis (Coefficient d'applatissement) 84.9244298
Coefficient d'assymétrie 5.6 Coefficient d'assymétrie 8.79821737 Coefficient d'assymétrie 8.85701876
Plage 17074998.0 Plage 1254080000 Plage 21499.9048
Minimum 2.0 Minimum 20000 Minimum 0.09520032
Maximum 17075000.0 Maximum 1254100000 Maximum 21500
Somme 136183192.0 Somme 5981230000 Somme 76037.8253
Nombre d'échantillons 200.0 Nombre d'échantillons 200 Nombre d'échantillons 200

Remarques :
 

Ce tableau est obtenu plus rapidement que le précédent, mais il n'est pas joli-joli ...


A franchement parler, il vaut mieux faire soi-même son marché de paramètres de statistiques plutôt que d'utiliser la "liste de courses" des auteurs d'EXCEL 97 ! Cette procédure n'est utile que si l'on est très pressé, et encore !
 

1.3) Calcul de la valeur centrale  "Mode" à l'aide de l'utilitaire d'analyse "Histogramme" d'EXCEL 97
 

Dénombrement de la variable SUP99 en 15 classes
Classes Effectif Fréq. Simple Amplitude Centre Freq. Moyenne
[0;1 000[ 24 12% 1000 500 0.024000
[1 000;2 000[ 5 3% 1000 1500 0.005000
[2 000;5 000[ 5 3% 3000 3500 0.001667
[5 000;10 000[ 4 2% 5000 7500 0.000800
[10 000;20 000[ 10 5% 10000 15000 0.001000
[20 000;50 000[ 23 12% 30000 35000 0.000767
[50 000;100 000[ 21 11% 50000 75000 0.000420
[100 000;200 000[ 23 12% 100000 150000 0.000230
[200 000;500 000[ 34 17% 300000 350000 0.000113
[500 000;1 000 000[ 21 11% 500000 750000 0.000042
[1 000 000;2 000 000[ 16 8% 1000000 1500000 0.000016
[2 000 000;5 000 000[ 8 4% 3000000 3500000 0.000003
[5 000 000;10 000 000[ 5 3% 5000000 7500000 0.000001
[10 000 000;20 000 000[ 1 1% 10000000 15000000 0.000000

Les effectifs des classes ont été calculés à l'aide de l'utilitaire d'analyse. L'analyse des fréquences moyennes montre que la classe modale est [0;1000] donc le mode des superficies est de 500 km2. On ne repère pas de mode secondaire (pas de remontée des fréquences moyennes).
 

Dénombrement de la variable POP99 en 15 classes
Classes Effectif Fréq. Simple Amplitude Centre Freq. Moyenne
[0;100 000[ 11 6% 100000 50000 0.000110
[100 000;200 000[ 8 4% 100000 150000 0.000080
[200 000;500 000[ 18 9% 300000 350000 0.000060
[500 000;1 000 000[ 10 5% 500000 750000 0.000020
[1 000 000;2 000 000[ 12 6% 1000000 1500000 0.000012
[2 000 000;5 000 000[ 35 18% 3000000 3500000 0.000012
[5 000 000;10 000 000[ 31 16% 5000000 7500000 0.000006
[10 000 000;20 000 000[ 26 13% 10000000 15000000 0.000003
[20 000 000;50 000 000[ 26 13% 30000000 35000000 0.000001
[50 000 000;100 000 000[ 13 7% 50000000 75000000 0.000000
[100 000 000;200 000 000[ 6 3% 100000000 150000000 0.000000
[200 000 000;500 000 000[ 2 1% 300000000 350000000 0.000000
[500 000 000;1 000 000 000[ 1 1% 500000000 750000000 0.000000
[1 000 000 000;2 000 000 000[ 1 1% 1000000000 1500000000 0.000000
Les effectifs des classes ont été calculés à l'aide de l'utilitaire d'analyse. L'analyse des fréquences moyennes montre que la classe modale est [0;100 000] donc le mode des populations  est de 50 000 habitants. On ne repère pas de mode secondaire (pas de remontée des fréquences moyennes).

Dénombrement de la variable DEN99 en 15 classes
Classes Effectif Fréq. Simple Amplitude Centre Freq. Moyenne
[0;2[ 3 2% 2 1 1.500000
[2;5[ 10 5% 3 4 3.333333
[5;10[ 10 5% 5 8 2.000000
[10;20[ 22 11% 10 15 2.200000
[20;50[ 38 19% 30 35 1.266667
[50;100[ 43 22% 50 75 0.860000
[100;200[ 33 17% 100 150 0.330000
[200;500[ 30 15% 300 350 0.100000
[500;1 000[ 5 3% 500 750 0.010000
[1 000;2 000[ 1 1% 1000 1500 0.001000
[2 000;5 000[ 1 1% 3000 3500 0.000333
[5 000;10 000[ 2 1% 5000 7500 0.000400
[10 000;20 000[ 1 1% 10000 15000 0.000100
[20 000;50 000[ 1 1% 30000 35000 0.000033
Les effectifs des classes ont été calculés à l'aide de l'utilitaire d'analyse. L'analyse des fréquences moyennes montre que la classe modale est [2;5] donc le mode des densités de  populations  est de 3.5 hab./km2. On repère une remonté des fréquences moyennes dans la classe [10;20], donc il y a un mode secondaire autour de la valeur 15 hab./km2.
 

Etape 2 : Etude de la distribution des taux de natalité et de mortalité dans le Monde en 1999

2.1) Moyenne simple et moyenne pondérée

Si l'on effectue la moyenne des taux de natalité des 200 pays ou territoires (moyenne non pondéréé), on trouve les résultats  suivants :
 
Critère TNA99 TMO99 TAC99
Moyenne des Etats ou territoires 25.9 9.7 16.2

Si l'on raisonne sur les effectifs, on calcule d'abord le total mondial des naissances et des décès ...
 
Ensemble géographique Population Naissances Décés Acc. Naturel
Monde 5981230000 137599670 53626600 83973070

Et l'on obtient par division les véritables taux mondiaux (moyenne pondérée) :
 
Critère TNA99 TMO99 TAC99
Moyenne mondiale               23.0 9.0 14.0

La différence entre les deux séries de résultats tient évidemment au fait que les Etats n'ont pas tous la même population, de sorte que la moyenne des taux n'est pas égale au taux moyen.
 

2.2) Analyse par sous-tableaux

Une bonne manipulation de TABLEAU CROISE DYNAMIQUE permet d'obtenir en une seule opération les résultats sous la forme du  tableau ci-dessous :
 
CONT Données Somme
1 NB TAC99 55
  Min TAC99 10
  Max TAC99 34
  Moyenne TAC99 24.1636364
  Ecartypep TAC99 5.95365018
2 NB TAC99 40
  Min TAC99 4
  Max TAC99 32
  Moyenne TAC99 16.675
  Ecartypep TAC99 7.04410214
3 NB TAC99 51
  Min TAC99 3
  Max TAC99 44
  Moyenne TAC99 18.3137255
  Ecartypep TAC99 8.99562028
4 NB TAC99 42
  Min TAC99 -6
  Max TAC99 12
  Moyenne TAC99 1.11904762
  Ecartypep TAC99 3.97733089
6 NB TAC99 12
  Min TAC99 6
  Max TAC99 36
  Moyenne TAC99 21.0833333
  Ecartypep TAC99 9.13289233
Total NB TAC99   200
Total Min TAC99   -6
Total Max TAC99   44
Total Moyenne TAC99   16.15
Total Ecartypep TAC99   10.7910843

En le transformant un petit peu et en rétablissant le nom des continents, on peut arriver à un résultat satisfaisant  :
 
Critère AFRIQUE AMERIQUE ASIE EUROPE OCEANIE MONDE
Nombre de pays 55 40 51 42 12 200
Minimum 10 4 3 -6 6 -6
Maximum 34 32 44 12 36 44
Moyenne 24.2 16.7 18.3 1.1 21.1 16.2
Ecart-type 6.0 7.0 9.0 4.0 9.1 10.8

On pourrait approfondir l'analyse en calculant d'autres paramètres (médianes, quartiles)  ou en pondérant les résultats par la population des pays (moyenne pondérée et écart-type pondéré). Ceci n'est toutefois pas très pratique à mettre en oeuvre sous EXCEL 97 et il vaut mieux utiliser dans ce cas des logiciels plus performants sur le plan statistique.
 

2.3) Présentation graphique des paramètres statistiques
 
 
Présentation simple mais efficace, qui permet de visualiser d'un seul coup d'oeil chacune des deux distributions. 

Ainsi, le taux de natalité varie entre 9 et 55, la médiane est aux alentours de 24 , 50 % des pays sont concentrés dans l'intervalle 15-38 et 80% dans l'intervalle 11-43 (etc.)
Pour le taux de mortalité, les valeurs sont beaucoup plus regroupées et le décalage de la médiane vers le bas signale l'existence d'une dissymétrie à gauche de la distribution.  

Il faut toutefois admettre que les symboles D1, Q1, Q2, Q3 et D9 ne sont guère parlants pour un public non averti. On aurait avantage à préciser leur signification dans le texte ou en bas du tableau. 


 

Etape 3 : A vous de jouer ...