Chapitre 2 : DENOMBREMENT ET REPRESENTATION GRAPHIQUE D'UN CARACTERE
2.1) DENOMBREMENT ET REPRESENTATION GRAPHIQUE DES CARACTERES DISCRETS2.2) DENOMBREMENT ET REPRESENTATION GRAPHIQUE DES CARACTERES QUANTITATIFS CONTINUS
Menu général Chapitre précédent Chapitre suivant
Introduction
Lorsqu' un tableau élémentaire comporte un grand nombre d'éléments, il est difficile de se faire une idée globale de la distribution des valeurs d'un caractère. Le tableau élémentaire permet de répondre à la question "quelle est la modalité de cet élément ?", mais pas aux questions "combien d'éléments prennent cette modalité" ou "quelle est la modalité la plus fréquente".
On est donc conduit à résumer l'information contenue dans le tableau élémentaire à l'aide de deux outils complémentaires :
1) Le tableau de dénombrement, qui donne un résumé numérique d'une distribution.
2) Les représentations graphiques, qui donnent un résumé visuel d'une distribution.La construction du tableau de dénombrement et des représentations graphiques sera différente selon que le caractère étudié est discret ou continu.
2.1) CARACTERES DISCRETS
Un caractère discret est un caractère qualitatif ou quantitatif prenant un nombre limité de modalités. Si on note N le nombre d'éléments et K le nombre de modalités, on peut distinguer deux cas :
- K=N : il y a autant de modalités que d'élément. Dans ce cas, le dénombrement est sans objet puisque chaque modalité apparaît une fois et une seule (identificateurs, caractères qualitatifs ordinaux).
- K<N : il y a moins de modalités que d'éléments. Dans ce cas, plusieurs éléments prennent la même modalité et on peut entreprendre un dénombrement du nombre d'éléments correspondant à chaque modalité du caractère.
La construction du tableau de dénombrement On constitue un tableau qui se composera d'autant de lignes qu'il y a de modalités et pour chaque modalité Xion déterminera son effectif Ei et sa fréquence simple Fi
- L'effectif Ei d'une modalité Xi est le nombre d'éléments qui prennent cette modalité. La somme des effectifs des différentes modalités donne le nombre d'éléments N.
K
S Ei = N
i=1- La fréquence simple Fi d'une modalité Xi est le rapport de l'effectif de cette modalité à l'effectif total. La fréquence peut se noter sous forme décimale dans [0;1] ou sous forme de % entre 0% et 100%. La somme des fréquences simples est égal à 1 (ou 100 %) des éléments.
Fi = Ei / N (fréquence sous forme décimale)
Fi = 100*Ei / N (fréquence en pourcentage)K
S Fi = 1 = 100%
i=1Exemple : dénombrement du caractère statut politique de 34 pays d'Amérique en 1989 (Cf Vocabulaire 1)
Les représentations graphiques d'un caractère discret
Le diagramme en bâtons
La représentation graphique la plus rigoureuse d'un caractère discret est le diagramme en bâtons.
On place sur l' axe des abcisses les différentes modalités du caractère et on indique en ordonnée leur effectif ou leur fréquence simple. Si le caractère est qualitatif nominal, l'ordre des modalités n'a pas d'importance, en revanche si le caractère est quantitatif discret, il faut les mettre dans l'ordre. Les bâtons ne doivent pas se toucher car le caractère n'est pas continu :Les "camemberts" Cette représentations est peu performante visuellement (lecture angulaire difficile), et elle ne permet pas une comparaison précise de la fréquence de chaque classe.
Les barres cumulées
La représentation en barres cumulées est intéressante lorsqu'il existe un ordre implicite entre les modalités du caractère discret (possibilité de calculer la fréquence totale de plusieurs classes contiguës).
Les étoiles
La représentation en étoiles est intéressante lorsqu'il existe un ordre implicite entre les modalités du caractère discret et que cet ordre correspond à un cycle (ex. précipitations mensuelles).
Le regroupement de modalités en classes Dans certains cas, le nombre de modalité paraît trop élevé et l'on peut établir des classes regroupant plusieurs modalités. On réalise alors une partition de l'ensemble des modalités. Il faut toutefois faire attention à ce que chaque modalité doit apparaître dans une classe et une seule. On peut alors établir un nouveau tableau de dénombrement qui est une simplification du précédent.
Exemple : soit le tableau élémentaire décrivant le nombre d'enfant de 10 familles (caractère quantitatif discret) :
Famille nombre
d'enfantsA 0 B 3 C 2 D 2 E 1 F 0 G 1 H 5 I 2 J 2
On peut définir les deux tableaux de dénombrement suivants selon que les modalités sont regroupées ou non en classes :
Xi Ei Fi 0 2 20 % 1 2 20 % 2 4 40 % 3 1 10 % 4 0 0 % 5 1 10 % >5 0 0 % Total 10 100%
Xi Ei Fi 0 2 20 % 1 ou 2 6 60 % >2 2 20 % Total 10 100 % En revanche, les tableaux suivants ne sont pas des tableaux de dénombrement car certaines modalités apparaissent dans plusieurs classes ou n'apparaissent pas du tout.
0 ou 1 4 1 ou 2 6 2 et + 6 => Incorrect car certaines familles sont comptées deux fois
0 ou 1 4 2 ou 3 5 5 1 => incorrect car la modalité "4 enfants" n'est pas prévue alors qu'elle est possible.2.2) CARACTERES CONTINUS
Tableau de distribution statistique et diagramme de distribution
On appelle tableau de distribution statistique l'ensemble ordonné (par ordre croissant) des valeurs prises par un caractère quantitatif. Le tableau de distribution statistique est donc un simple reclassement du tableau élémentaire
Le diagramme de distribution est un schéma commode, parce que rapidement construit, qui permet de visualiser l'ordre et la répartition des différentes valeurs d'une distribution statistique. En abcisse, un axe horizontal orienté définit l'échelle de mesure du caractère et on positionne chaque élément sur cette échelle par un point. Si deux éléments prennent la même modalité (ex aequo) on positionne deux points superposés sur le diagramme de distribution.
Tableau de distribution statistique et diagramme de distribution permettent une première appréhension de la distribution des valeurs d'un caractère :
- repérage des valeurs maximum et minimum
- repérage des zones de concentration (valeurs rapprochées les unes des autres)
- repérage des zones de dispersion (valeurs éloignées les unes des autres)
- repérage des discontinuités de la distribution (zones de concentration séparées par un intervalle où les valeurs sont absentes).
Mise en classes et dénombrementLorsqu'un caractère est continu (ou assimilable) il est impossible d'effectuer le dénombrement de chacune de ses modalités car celles-ci sont en nombre infini.Il est donc absolument obligatoire d'effectuer une partition en classes avant d'entreprendre le dénombrement des modalités d'un caractère continu.
Exemple : en apparence, le caractère indice de fécondité ne possède qu'un nombre de modalités limitées : 1.7, 1.8, 1.9, ... 5.5., 5.6, 5.7 et certaines apparaissent plusieurs fois (2.1 apparaît 3 fois). En réalité, il faut bien voir que les valeurs ont été arrondies et les valeurs exactes sont plutôt 2.112, 2.055, 2.136 etc. Il n'y a donc probablement aucune modalité qui soit égale à une autre. On ne peut regrouper les valeurs qu'à l'aide de classe. D'ailleurs, les arrondis sont en fait des classes. Dire qu'un pays prend la valeur arrondi 2.1 signifie simplement que son taux de fécondité est compris dans l'intervalle [2.05 ; 2.15]
partition en classes
Pour dénombrer un caractère continu il faut établir une partition en classes qui doit respecter les deux règles suivantes.
- exhaustivité : la réunion de l'ensemble des classes doit recouvrir au moins l'ensemble du domaine de variation du caractère (du minimum observé au maximum observé) mais qui peut être plus large (du minimum possible au maximum possible).
- disjonction : les classes sont deux à deux disjointes (leur intersection est nulle).
Exemple : le caractère fécondité des pays d'Amérique Latine en 1981 a pour valeurs minimum 1.7 et pour valeur maximum 5.7. La partition en classe doit donc couvrir au minimum l'intervalle [1.7 ; 5.7]. Néanmoins, on peut choisir un domaine de variation un peu plus large, par exemple [1.5; 6], si l'on pense que ces valeurs pourraient être prises (les modalités sont les valeurs possibles du caractère)
=> Partitions correctes :
[1.5 ; 3.0[ [3.0 ; 4.5[ [4.5 ; 6.0]
[1.5 ; 2.0[ [2.0 ; 3.0[ [3.0 ; 4.0 [ [4.0 ; 6.0]=> Partitions incorrectes :
[1.5 ; 3.0] [3.0 ; 4.5] [4.5 ; 6.0]
[1.5 ; 3.0] [3.1; 5.2] [5.5; 6.0]
Vocabulaire à propos des classes :Exemple : la classe [4.5 ; 6.0] a pour borne supérieure 6.0, pour borne inférieur 4.5.
- une classe se note j
- sa borne supérieure est notée Bsupj
- sa borne inférieure est notée Binfj
Différentes méthodes de mise en classe seront étudiées au cours des chapitres suivants. On peut néanmoins proposer d'ores et déjà un principe et trois méthodes.
Nombre de classes
Principe : le nombre de classes dépend du nombre d'éléments. Les ordres de grandeur empiriques corrects sont les suivants :
Nombre d'éléments Nombre de classes 10 2 à 3 20 3 à 4 50 4 à 6 100 5 à 8 La formule mathématique de Huntsberger propose de définir le nombre maximum de classes par :
max (K) = 1 + 3.3 log10(N) Exemple : N=100 => max(K) = 7.6 ce qui signifie que pour 100 individus, on ne doit pas aller au delà de 7 ou 8 classes.
Trois méthodes de partition en classes :
En l'absence de toute information sur la distribution (paramètres statistiques) et de tout objectif particulier de comparaison ou d'analyse, on peut proposer trois méthodes simples de choix des classes :
- Seuils naturels : on choisit commes bornes les "creux" de la distribution à l'aide du diagramme de distribution.
- Amplitudes égales : on divise l'intervalle compris entre le minimum et le maximum en K classes d'amplitudes égales. Chaque classe a donc une étendue de (Max-Min)/K
- Effectifs égaux : à l'aide du tableau de distributions statistique on constitue K classes ayant le même effectif. Chaque classe aura donc une fréquence simple égale à N/K.
D'autres méthodes seront étudiées au cours du chapitre 4 (notamment l'utilisation de la moyenne et écart-type)
Le tableau de dénombrement
La construction est la même que pour un caractère discret sauf que l'on dénombre l'effectif des classes et non pas des modalités du caractère. Il y a donc autant de lignes que de classes, chaque classe possédant un effectif Ej et une fréquence simple Fj. Toutefois, on rajoute à ce tableau trois colonnes supplémentaires :
- L'amplitude de la classe :
Aj = Bsupj-Binfj - Le centre de la classe :
Cj = (Bsupj+Binfj)/2 - La fréquence moyenne ou densité d'effectif qui mesure la concentration des observations à l'intérieur d'une classe. Cette valeur est toujours calculée à une constante près de sorte qu'il est indifférent d'utiliser l'une ou l'autre des formules suivantes.
Fmj = Fj / Aj ou
Fmj = Ej / AjL'histogramme
Signification de la fréquence moyenne
Lorsque les classes sont d'amplitudes inégales, les effectifs ou les fréquences simples ne peuvent pas nous renseigner sur la concentration des valeurs à l'intérieur d'une classe. Il est donc nécéssaire de recourir à une fréquence corrigée, la fréquence moyenne.
En divisant la fréquence simple par l'amplitude on mesure non pas le nombre d'éléments d'une classe mais la concentration des valeurs à l'intérieur de cette classe. En d'autres termes, la fréquence moyenne mesure la densité des éléments à l'intérieur de chaque intervalle de la partition.
Construction de l'histogramme :
- Fmj forte => concentration des valeurs : beaucoup de pays ont des valeurs voisines.
- Fmj faible => dispersion des valeurs : les pays ont des valeurs éloignées.
Chaque classe est représentée par un rectangle dont la base est proportionelle à l'amplitude de la classe et dont la hauteur est proportionelle à la fréquence moyenne de la classe. La surface du rectangle est quant à elle proportionelle à la fréquence simple (ou l'effectif) de la classe.
Le lecteur d'un histogramme doit permettre de connaître non seulement la concentration mais aussi l'effectif ou la fréquence simple d'une classe. Il faut donc indiquer à quelle fréquence simple ou à quel effectif correspond une surface élémentaire de l'histogramme
On construit donc un petit rectangle ou un petit carré de base B et de hauteur H. Ce rectangle représente une fréquence simple de BxH, ce que l'on inscrit en face.
Interprétation de l'histogramme.
L'observation de l'histogramme permet d'obtenir deux types de renseignements différents :
Exemple numérique
- comparer l'effectif ou la fréquence simple des classes en comparant leur surface.
- repérer les zones de concentration et de dispersion des valeurs en examinant le relief de l'histogramme. Ceci permet de définir le type de la distribution (unimodale / bimodale , symétrique / dissymétrique), renseignement essentiel pour tout traitement statistique ultérieur.
On considère la distribution des salaires dans l'entreprise Zykosar qui est installée aux îles Crocos dont la monnaie est le dollar croco (CR $). Il existe trois tableaux décrivant cette distribution. Seul le Tableau 3 est accessible au public, les deux premiers étant conservés secrètement par le directeur général et les sous-directeurs.
Tableau 1 : salaires nominaux de l'entreprise Zykosar
n° Catégorie salaire
en CR $ 1apprentis 1300 2apprentis 1300 3apprentis 1500 4apprentis 1700 5apprentis 1700 6ouvriers 2100 7ouvriers 2100 8ouvriers 2300 9ouvriers 2500 10ouvriers 2700 11ouvriers 2900 12ouvriers 2900 13cadres 4500 14cadres 4500 15cadres 5000 16cadres 5500 17cadres 5500 18directeur adjoint 20000 19directeur adjoint 30000 20directeur général 100000. total 200000Tableau 2 : Salaires moyens par catégories d'emploi
Catégorie effectif salaire moyen
(en CR $)apprentis 5 1500ouvriers 7 2500cadres 5 5000directeurs adjoints 2 25000directeur général 1 100000total 20 200000Tableau 3 : Dénombrement des employés par tranches de salaires
Salaires
(en CR $)effectif fréquence amplitude centre freq. Moy. [1000 ; 2000[ 5 25% 1000 1200 0.00500[2000, 4000[ 7 35% 2000 3000 0.00350[4000; 100000] 8 40% 96000 52000 0.00008Dans son bilan annuel, l'entreprise Zykosar a présenté le graphique suivant :
Figure 1 : salaires de l'entreprise Zykosar (représentation incorrecte)
Pourquoi cette représentation est-elle incorrecte ?
=> parce que les caractères quantitatifs continus ne peuvent être représentés à l'aide de ce type de graphique. Il faut obligatoirement construire un histogramme.
Le directeur propose alors une nouvelle représentation :Figure 2 : salaires de l'entreprise Zykosar (histogramme incorrect n°1)
Pourquoi cette représentation est-elle toujours incorrecte ?
=> parce que la base des bâtons n'est pas proportionelle à l'amplitude
Le directeur propose alors une nouvelle représentation dont il est particulièrement satisfait car elle accroît l'importance visuelle des salaires élevés :
Figure 3 : salaires de l'entreprise Zykosar (histogramme incorrect n°2)
Pourquoi cette représentation est-elle toujours incorrecte ?
=> parce que la surface des bâtons n'est pas proportionelle à la fréquence simple ou l'effectif
Figure 4 : salaires de l'entreprise Zykosar (histogramme correct mais mensonger)
Cette représentation est (enfin) correcte et elle montre bien le déséquilibre qui existe dans l'entreprise Zykosar entre les bas salaires et les hauts salaires. Et pourtant, bien que correcte sur le plan statistique elle demeure mensongère et masque une partie des inégalités salariales. On peut en effet supposer, au vu de cet histogramme, que de nombreux salariés ont des salaires très élevés (la classe 4000-100000 regroupant 40% des individus). Cette illusion disparaît si l'on établit une partition en quatre classes respectant les discontinuités de la distribution (1000-2000 / 2000-4000 / 4000-10000 / 10000-100000)
Figure 5 : salaires de l'entreprise Zykosar (histogramme correct)
On voit maintenant très bien que l'écrasante majorité des salariés gagnent moins de 10000 CR $ et que les plus nombreux gagnent des salaires de misère (le coût de la baguette de pain est de 10 CR $).
La courbe des fréquences cumulées.
Définition des fréquences cumulées
On est fréquemment amené à se demander quelle proportion des éléments de la distribution ont une modalité supérieure (ou inférieure) à un certain seuil.
ex. : quel % des Etats d'Amérique ont un indice de fécondité supérieur au seuil de renouvellement des générations (2.1)
La réponse à cette question est fournie par la courbe des fréquences cumulées ascendantes. Cette courbe des fréquences cumulée est une application de l'ensemble Xi des modalités du caractère vers l'ensemble [0,1] qui indique le cumul des individus ayant une modalité inférieure ou égale au seuil retenu :
Fcum(2.1) = 0.3 signifie que 30% des éléments ont une modalité inférieure à 2.1
Construction de la courbe des fréquences cumulées à partir de données exhaustives (tableau élémentaire)
On réalise tout d'abord un tableau de distribution statistique où les éléments sont classés du plus grand au plus petit. Les ex-aequo, s'il y en a, sont rangés sur des lignes différentes. Dans le tableau, chaque élément Xi a un rang Ri. Il est alors facile de définir les points de la courbe recherchée :
Fréquence cumulée
Fcum(Xi) = Ri/Navec Ri, rang de l'individu de modalité Xi
Remarque : on parle de fréquence cumulée ascendante si le rang est défini du plus grand au plus petit et de fréquence cumulée descendante dans le cas contraire. Les deux représentations sont équivalents et il suffit d'en tracer une.
Construction de la courbe des fréquences cumulées à partir d'un tableau de dénombrement
Dans le cas d'un tableau de dénombrement, on ignore le tracé exact de la courbe mais on connaît un certains nombres de points caractéristiques relatifs à chaque borne supérieure (ou inférieure) de classe.
Fréquence cumulée ascendantes :
j
Fcum(Bsupj) = S Fi
i=1j-1
Fcum(Binfj) = S Fi
i=1En se servant uniquement des points qui constituent les limites de classes et en interpolant entre ceux-ci, on peut essayer de reconstituer l'allure générale de la courbe des fréquences cumulées. La précision sera évidemment d'autant plus grande que le tableau de dénombrement comporte un grand nombre de classes et que celles-ci ont été établies selon des principes corrects.
L'interprétation de la courbe des fréquences cumulées
Outre son rôle propre (combiens d'éléments sont supérieurs ou inférieurs à tel ou tel seuil), la courbe des fréquences cumulées permet tout comme l'histogramme de repérer les zones de concentration et de dispersion des valeurs de la distribution. En effet :
Le point de croisement des deux courbes de fréquences cumulées (FAsc= FDesc = 50%) permet par ailleurs de repérer la médiane (Cf Chapitre 3).
- pente faible : zone de dispersion des valeurs
- pente forte : zone de concentration.des valeurs
- "replat" : discontinuité signalant une distribution multimodale
Remarque : d'un point de vue mathématique, la courbe des fréquences cumulées ascendantes Fasc(x) est l'intégrale de la courbe Fm(x) formée par le sommet de l'histogramme.
Exemple d'application : fréquence cumulée des salaires de l'entreprise Zykosar
Partant du tableau élémentaire ou du tableau de dénombrement, on peut établir les courbes suivantes :
Figure 6 : salaires de l'entreprise Zykosar (fréquences cumulées / individus ou classes)
Il est clair que, tout comme dans le cas des histogrammes, un choix judicieux des classes permet de masquer une partie de l'information. Ainsi, si l'on se fiait à la courbe des fréquences cumulées établie par classes, concluerait que 25% des salariés gagnent plus de 15000 CR$ alors que la courbe des fréquences cumulée établie à l'aide des données individuelles montre qu'ils ne sont en réalité que 15% à dépasser ce seuil !
Conclusion : choix des classes et manipulation de l'information
Le passage du tableau élémentaire au tableau de dénombrement, dans la mesure où il entraîne une perte d'information, autorise toute une série de manipulations qui permettent de fausser la réalité en réalisant un résumé incorrect.
Le choix des classes constitue donc une étape essentielle puisqu'il conditionne la forme des représentations graphiques des distributions d'un caractères quantitatif (histogramme, courbes de fréquences cumulées, cartes, ...).
Si l'on est honnête, on tâchera de choisir des classes qui respectent la forme de la distribution, c'est-à-dire telles que :
(1) les bornes correspondent à des discontinuités de la distribution
(2) le centre correspond à la valeur moyenne des individus contenus dans la classeMais on peut évidemment ne pas respecter ces règles si l'on veut dissimuler une information ou donner à voir des phénomènes qui n'existent pas. La seule règle à laquelle doivent s'astreindre les manipulateurs est de respecter au moins les règles de l'art de la représentation statistique (fréquences moyennes et non pas fréquences simples dans le cas de l'histogramme), faute de quoi la supercherie serait trop évidente.
Les représentations graphiques ne constituent cependant qu'un aspect des manipulations possibles et les indicateurs numériques (valeurs centrales, paramètres de distribution) offrent des possibilités de manipulation encore plus importantes, dans la mesure où ils sont des résumés beaucoup plus condensés de l'information. C'est ce que nous allons étudier au chapitre suivant.
Menu général Chapitre précédent Chapitre suivant