Jean-Christophe François & Claude Grasland Université Paris VII / UFR GHSS - Deug de Géographie- 1ere année / Année 1999-2000 / 2nd Semestre STAT.2 : DENOMBREMENT ET REPRESENTATIONS GRAPHIQUES D'UN CARACTERE |
|
|
|
|
2.2.1 Analyse élémentaire de la distribution
Pour obtenir un cours de statistique détaillé, mais non centré sur la géographie, cliquez ici. |
Le tableau de dénombrement donne un résumé numérique d'une distribution statistique.
Les représentations graphiques donnent un résumé visuel d'une distribution statistique
Les représentations cartographiques donnent une image de la répartition dans l'espace de la distribution statistique
La construction du tableau de dénombrement et des représentations graphiques sera différente selon que le caractère étudié quantitatif discret, quantitatif continu, ou qualitatif.
CARACTERES DISCRETS
Tableau de dénombrement :
le tableau de base se compose de trois colonnes:
2- L'effectif ni d'une modalité Xi est le
nombre d'éléments qui prennent cette modalité dans
la distribution observée. La somme des effectifs pris par chacune
des modalités donne le nombre d'éléments N. Pour k
modalités on a :
3- La fréquence simple fi d'une modalité Xi est le rapport de l'effectif de cette modalité à l'effectif total. La fréquence varie de 0 à 1 elle est alors notée sous forme décimale dans [0;1]. Elle peut être exprimée en pourcentage, elle varie alors de 0% à 100%.
fi = ni / N (fréquence sous forme décimale)
fi = 100* fi / N (fréquence en pourcentage)
La somme des fréquences simples est égale
à 1 (ou à 100 %) des éléments.
Soit le tableau de dénombrement ci-dessous :
Diagramme en bâtons : c'est la représentation graphique normale d'un caractère discret. Il présente en abscisse la suite ordonnée des modalités du caractère X et en ordonnée leur fréquence simple ou leur effectif. Les bâtons ne doivent pas être jointifs car le caractère est discret. | |
Camembert : Représentation équivalente au diagramme en bâtons mais moins performantes sur le plan visuel. Bien qu’elle soit assez souvent utilisées, cette représentation est à exclure de nos pratiques. | |
Barre coupée : Représentation consistant à découper une barre (représentant 100% de l’effectif) en segments dont la longueur est proportionnelle à l’effectif de chaque modalité. Particulièrement intéressante dans le cas des caractères où il existe un ordre entre les modalités | |
Diagramme en étoile : représentation consistant à faire partir d’un point central autant de traits qu’il y a de modalités et à leur donner une longueur proportionnelle à leur fréquence. Cette représentation est particulièrement adapté au cas des caractères cycliques tels que les jours de la semaine, les mois de l’année, etc. |
CARACTERES CONTINUS
Analyse élémentaire
Distribution statistique: pour un caractère quantitatif, ensemble ordonné des modalités prises par le caractère X par l'ensemble des éléments de E. Le tableau de distribution statistique est un tableau élémentaire dans lequel les valeurs du caractère X ont été ordonnées. A chaque modalité Xi de ce tableau on peut donc associer un rang qui est sa position dans le classement des valeurs de la plus petite.Partition en classes
Diagramme de distribution : représentation élémentaire et unidimensionnelle d’une distribution statistique, consistant à représenter chaque élément de la distribution par un point sur un axe gradué. Lorsque deux éléments ont des modalités identiques ou très proche, on procède à un " empilement " des points. Le diagramme de distribution correspond alors à un histogramme utilisant de très petites classes d’effectifs égaux.
Courbes des fréquences cumulées (1) : La construction élémentaire de la courbe des fréquences cumulées consiste à associer à chaque modalité du tableau de distribution statistique sa fréquence cumulée ascendante (% des éléments ayant des modalités de valeur inférieure ou égale) et sa fréquence cumulée descendante (% des éléments ayant des modalités de valeur supérieure ou égale)
F asc i = Ri / N
F des i = 1 – (Ri/N)
On représente alors sur le graphique le croisement des modalités Xi (en abscisse) avec leur fréquence cumulée ascendante ou descendante (en ordonnée).
- Zones de concentration- Zones de dispersion – discontinuités : Diagramme de distribution et courbes des fréquences cumulées permettent de repérer les zones de concentration de la distribution (beaucoup d’éléments sur un intervalle) et les zones de dispersion (peu d’éléments sur un intervalle). On peut également repérer des discontinuités, c’est-à-dire des zones de dispersion séparant deux zones de concentration des éléments.
Sur la courbe des fréquences cumulées :
Les pentes fortes correspondent aux zones de concentration des valeurs Les pentes faibles correspondent aux zones de dispersion des valeurs Les " marches d’escalier " correspondent aux discontinuités de la distribution
Trois méthodes de base peuvent être retenues en l’absence d’autres informations sur la distribution. Elles seront complétées par d’autres ultérieurement.Tableau de dénombrementMéthode des seuils naturels : Consiste à placer les limites de classes dans les zones de discontinuité de la distribution. Le nombre de classes dépend du nombre de discontinuités repérées.
Méthode des amplitudes égales : consiste à diviser l’étendue de la distribution en classes de même amplitude (mais pas forcément de même effectif)ex. [1.5 ; 1.9[ ; [1.9 ; 2.5[ ; [2.5 ; 3.3] Méthode des effectifs égaux : consiste à placer les bornes de façon à avoir approximativement le même effectif dans chacune des classes. Les amplitudes ne sont alors généralement pas égalesex. [1.5 ; 2.1[ ; [2.1 ; 2.7[ ; [2.7 ; 3.3] ex. [1.5 ; 1.75[ ; [1.75 ; 2.15[ ; [2.15 ; 3.3]
Il se compose de huit colonnes et de k lignes, k étant le nombre de classes de la partition du caractère.Représentations graphiques déduites du tableau de dénombrement 1- Les classes correspondent à une partition de l'ensemble de l'intervalle de variation du caractère. (intervalle allant de la valeur minimum prise par X dans l'ensemble étudié, à la valeur minimum prise par X dans l'ensemble étudié). Ces classes doivent être disjointes (l'intersection de deux classes est nulle, un élément ne peut appartenir qu'à une seule classe), et continues (la partition doit être exhaustive, elle doit intégrer toutes les valeurs que pourrait prendre le caractère dans l'intervalle de variation considéré. Chacune des k classes, j étant une classe quelconque, est définie par une borne inférieure Binf j et une borne supérieure, nj est le nombre d'éléments compris dans l'intervalle [Binf j ; Bsup j[ 2- l'effectif des classes nj est le nombre d'individus appartenant à chaque classe j.
3- La fréquence simple des classes :
fi = nj / N
4- L'amplitude des classe :
Aj = Bsup j -Binf j
5- Le centre de la classe :
Cj = [ Bsup j + Binf j ] / 2
6- La fréquence moyenne ou densité d'effectif :
fmj = fj / Aj
7- La fréquence cumulée ascendante de la classe j est la proportion d'éléments qui pour le caractère X enregistrent une valeur inférieure à celle de sa borne supérieure.
8- La fréquence cumulée descendante de la classe j est la proportion d'éléments qui, pour le caractère X enregistrent une valeur supérieure à celle de sa borne inférieure
Fdesj = 1- Fascj
Elles sont au nombre de deux pour les caractères continus :1- L'histogramme est établi à partir d'un tableau de dénombrement. C'est une représentation bi-dimensionnelle qui présente chaque classe sous la forme d'une rectangle dont la base est proportionnelle à l'amplitude de la classe et la hauteur à la fréquence moyenne de la classe. La surface du rectangle est donc proportionnelle à l'effectif de la classe (ou la fréquence simple de la classe) puisque :
Surface du rectangle = ( longueur x largeur) = ( fmj x Aj) = (fj / Aj) x Aj = fj 2- Les courbe des fréquences cumulées ascendantes et descendantes sont établies à partir du tableau de distribution statistique ou à partir d'un tableau de dénombrement. C'est un graphique bi-dimensionnel représentant en abscisse les modalités du caractère X et en ordonnée, les fréquences cumulées . Sa construction est la suivante :La légende d'un histogramme est constituée par un élément de surface dont on indique la part des éléments qu'il représente (exprimée en fréquence simple ou en effectif).
L' histogramme permet une double lecture de la distribution statistique:
1) La hauteur du rectangle (ordonnée) renseigne sur la densité des éléments dans chaque classe. Une forte fréquence moyenne indique une concentration des valeurs, une faible fréquence moyenne indique une dispersion des valeurs.
2) La surface des rectangles renseigne sur l'effectif de chaque classe.
- La fréquence cumulée ascendante On porte en abscisse les valeurs correspondant aux bornes des classes de la partition du caractère X et en ordonnée les fréquences cumulées ascendantes correspondantes. On repère les points correspondant à ces couples de valeurs auxquels on ajoute le point qui a pour abscisse la borne inférieure de la première classe, qui correspond à X min, et pour ordonnée 0 (en effet, 0 ou 0% des éléments enregistrent des valeurs inférieures à X min). On procède à une extrapolation linéaire entre ces points (hypothèse d'équirépartition des éléments dans chaque classe), en reliant ces points par une droite. - La fréquence cumulée descendante On procède de la même manière mais en sens inverse. Les valeurs de fréquence cumulée descendantes sont égales à (100% - valeur de la fréquence cumulées ascendante)
Les courbes obtenues se croisent au point de fréquence cumulée ascendante ou descendante 0.5 ou 50%. La valeur du caractère X correspondant à cette fréquence cumulée 0.5 ou 50% et que l'on peut directement lire sur le graphique en ordonnée est la médiane (50 % des éléments sont supérieurs à cette valeur de X et 50 % lui sont inférieurs). On notera ce point X méd