Introduction à la statistique sous Excel
Claude Grasland
Université Paris VII / UFR GHSS
MODULE 4
Valeurs centrales et paramètres
de dispersion
|
Fichier de données : Module4.xls
N.B. Il est conseillé de faire une copie de secours du fichier
après l'avoir téléchargé
Etape 1 : Etude de la population et de la superficie
des pays du Monde en 1999
1.1) Calcul des paramètres statistiques à
l'aide des fonctions de base d'EXCEL.
Objectifs :
-
Extrayez du tableau de données les variables CODE, NOM, SUP99 et
POP99 et copiez les dans une nouvelle feuille.
-
Convertissez la population en habitants (x 1 000 000) et la superficie
en km2 (x 1 000)
-
Créez la variable DEN99 (densité de population en 1999 en
hab./km2).
-
Calculez les paramètres statistiques caractéristiques de
chacune des trois distribution :
Effectif
Minimum
1er décile : D1
1er quartile : Q1
2e quartile (médiane) : Q2
3e quartile : Q3
9é décile : D9
Maximum
Moyenne
Mode
Médiane
Etendue
Intervalle interquartile (Q3-Q1)
Intervalle interdéciles (D9-D1)
Ecart-absolu moyen
Ecart-type
Coefficient de variation
Coefficient interquartile relatif : (Q3-Q1)/Q2
-
Présentez en deux ou trois phrases les résultats obtenus.
Conseils :
-
Utilisez les fonctions statistiques d'EXCEL pour calculer les paramètres
prédéfinis (NB, QUARTILE, MOYENNE, MEDIANE, MODE, MIN,
MAX, MEDIANE, ECART.MOYEN) et calculez par soustraction ou division ceux
qui s'en déduisent (étendue, intervalle interquartile, intervalle
interdécile, coefficient de variation, coefficient interquartile
relatif).
-
Dans le cas de l'écart-type, utilisez la fonction ECARTYPEP (écart-type
d'une population) et non pas la fonction ECARTYPE (écart-type
d'un échantillon).
-
Pour trouver D1 et D9, utilisez la fonction DECILE paramètrée
avec les valeurs 0.1 ou 0.9.
-
Une fois que vous avez paramétré les calculs pour une variable,
recopiez les formules pour trouver les paramètres des autres variables.
-
Remarques :
-
La liste des unités retenues (200 pays ou territoires) vous semble-t-elle
cohérente ?
-
La valeur centrale " mode" proposée par EXCEL est-elle correcte
?
1.2) Calcul des paramètres statistiques à
l'aide de l'utilitaire d'analyse "statistique descriptive" d'EXCEL
Objectifs :
-
Essayer de calculer plus rapidement les paramètres statistiques
précédents à l'aide de l'utilitaire d'analyse statistique
d'EXCEL.
Conseils :
-
Vérifier que le menu OUTIL/UTILITAIRE D'ANALYSE est installé
-
Si le menu OUTIL/UTILITAIRE D'ANALYSE n'apparaît pas, installez le
à l'aide du menu OUTIL/MACRO COMPLEMENTAIRE : cocher la case
"UTILITAIRE D'ANALYSE" (il faudra peut-être insérer le CD-ROM
Office).
-
Lancez la macro de statistique descriptive qui se trouve dans OUTIL/UTILITAIRE
D'ANALYSE/ STATISTIQUES DESCRIPTIVES en l'appliquant aux trois variables
SUP99, POP99 et DEN99
-
Cocher la case "Rapport détaillé".
Remarques :
-
Que pensez-vous de l'utilitaire d'analyse "statistique descriptive" ?
-
Quels paramètres statistiques retenus à l'Etape 1-1
font défaut ?
-
Quels paramètres sont au contraire ajoutés ?
-
Quelle variante de l'écart-type est utilisée (ECARTYPE ou
ECARTYPEP) ?
-
Que signifie le terme "plage" ?
1.3) Calcul de la valeur centrale "Mode" à
l'aide de l'utilitaire d'analyse "Histogramme" d'EXCEL 97
Objectifs :
-
Même si l'utilitaire d'analyse statistique d'EXCEL 97 est franchement
nul, on peut s'en servir à condition de bien connaître ses
défauts mais aussi ses qualités cachées (non prévues
par les concepteurs ...).
-
Ainsi, l'utilitaire d'analyse "histogramme" peut être transformé
en un bon outil de calcul du Mode d'une distribution d'un caractère
continu en le bricolant un peu.
-
Vous allez essayer de corriger les calculs précédents du
mode des distributions en créant trois tableaux de dénombrement
dont vous déterminerez la classe modale.
Conseils :
-
Bien réfléchir au nombre de classes et au choix de leurs
limites. Si vous ne voulez pas étudier toutes la distribution en
détail, utilisez des classes d'amplitudes égales (en vous
servant de min et max) ou des classes d'effectifs égaux (en vous
servant des quantiles).
-
Une fois que les bornes des classes sont établies, lancer OUTIL/UTILITAIRE
D'ANALYSE/HISTOGRAMME pour obtenir leurs effectifs
-
Calculer ensuite les amplitudes et les fréquences moyennes (effectif/amplitude)
pour trouver la classe modale
-
En déduire le mode, qui est le centre de la classe modale.
Remarques :
-
Vous ne trouverez pas nécessairement le même mode, selon le
nombre de classes et le choix des bornes. Le mode n'est pas une valeur
centrale "objective".
-
Penser à vérifier si la distribution est bimodale ou multimodale
en examinant l'ensemble des fréquences moyennes, et pas seulement
la plus élevée.
-
Si vous voulez tracer votre "histogramme" sous EXCEL, vous êtes obligés
de faire des classes d'effectifs égaux et de rendre les bâtons
jointifs, ou alors il faut "bidouiller à mort" (Cf.
Module 3).
Etape 2 : Etude de la distribution des taux de natalité
et de mortalité des pays de plus de 1 millions d'habitants.
2.1) Moyenne simple et moyenne pondérée
Objectifs :
-
Extrayez du tableau de données les variables CODE, NOM, POP99, TNA99
et TMO99 et copiez les dans une nouvelle feuille.
-
Créez la variable taux d'accroissement naturel : TAC99=TNA99-TMO99
.
-
Calculez la moyenne simple et la moyenne pondérée des variables
TNA99, TMO99 et TAC99
-
Quelles différences remarquez-vous entre les résultats ?
-
Comment pouvez vous les expliquer ?
Conseils :
-
Pour trouver les moyennes pondérées, créez les variables
intermédiaires NAT99 (nombre de naissances par pays en 1999) et
MOR99 (nombre de décès par pays en 1999) et ACN99 (accroissement
naturel brut, en habitants).
Remarques :
-
Dans les "bons" logiciels de statistique (SPSSS, EXCEL, SYSTAT) l'introduction
de la pondération est très facile pour les calculs de moyenne,
mais aussi d'écart-type, de régression, de corrélation.
Ce n'est pas le cas avec EXCEL 97, qui est décidément d'une
nullité crasse en matière de statistiques.
2.2) Analyse par sous-tableaux
Objectifs :
-
Calculez l'effectif, le minimum, le maximum, la moyenne et l'écart-type
de la variable taux d'accroissement naturel pour le monde entier (sans
pondération)
-
Effectuez la même opération par continent (la Russie étant
rattachée à l'Europe)
-
Que vous apprennent les résultats sur l'hétérogénéité
démographique des différentes parties du Monde.
-
Quels autres paramètres statistiques aurait-on pu introduire dans
l'analyse ?
Conseils :
-
Transformer la variable CODE à l'aide de la fonction GAUCHE() pour
créer une variable CONT, permettant de différencier
les continents.
-
Penser à rattacher la Russie à l'Europe ...
-
Utiliser les fonctions de TABLEAU CROISE DYNAMIQUE pour calculer facilement
les indicateurs demandés.
Remarques :
-
Dans les "bons" logiciels de statistique (SPSSS, EXCEL, SYSTAT) les calculs
par sous-tableaux sont beaucoup plus faciles et complets que dans EXCEL.
-
Pourquoi ne faut-il pas calculer le coefficient de variation dans le cas
particulier de la variable Taux d'accroissement naturel ?
2.3) Présentation graphique des quantiles d'une
distribution
Objectifs :
-
Essayez de présenter les résultats du tableau ci-dessous
sous la forme d'un graphique EXCEL
-
Commentez le graphique obtenu
Critère |
TNA |
TMO |
Minimum |
8 |
2 |
D1 |
11 |
5 |
Q1 |
15 |
6 |
Q2 |
24 |
8 |
Q3 |
38 |
12 |
D9 |
43 |
18 |
Maximum |
54 |
24 |
Conseils :
-
Utiliser un graphique de type "NUAGE DE POINTS"
-
Choisissez bien l'orientation (DONNEES EN LIGNE ou en COLONNES ?)
Remarques :
-
Ce genre de graphique pourrait s'appliquer à la présentation
de résultats par sous-tableaux. Vous pouvez vous exercer en calculant
les quantiles du TNA99 par continents.
Etape 3 : A vous de jouer ...
Objectifs :
-
Etudiez la distribution mondiale du taux de mortalité infantile,
en montrant la diversité des situations observables à l'intérieur
de chaque continent ou sous-continent.
-
La note de synthèse ne doit pas dépasser deux pages (une
feuille A4 recto-verso). Elle comportera au plus deux tableaux et une figure
(ou deux figures et un tableau).
Conseils :
-
Pensez à utiliser les méthodes de représentation graphique
vues dans le module 3
-
Choisissez à bon escient les paramètres statistiques les
plus pertinents.
-
Pondérez correctement vos résultats pour trouver la valeur
mondiale de référence.
-
Ne vous trompez pas dans le choix des paramètres de dispersion (absolue/relative)
Remarques :
-
La note ne doit pas reprendre toutes vos analyses préalables. Vous
ne devez garder que les résultats les plus pertinents.
-
Dans le cadre de ce module de statistique, il n'est pas nécessaire
de faire une carte par pays et d'étudier la distribution spatiale
de la mortalité infantile. Vous devez surtout insister sur les différences
entre continents et sous-continents pris en bloc. Ainsi, vos tableaux ou
figures doivent permettre d'identifier rapidement le continent (ou sous-continent)
où la mortalité infantile est la plus élevée,
la plus faible, la plus homogène, la plus hétérogène...