Chapitre 8 : TABLEAU DE CONTINGENCE ET TEST DU CHI-2
Menu général Chapitre précédent Chapitre suivant
INTRODUCTION
Nous avons vu au cours des deux chapitres précédents comment il était possible de tester l'existence d'une relation entre deux caractères quantitatifs continus à l'aide de coefficients de corrélation (Chapitre 6) puis de modéliser cette relation à l'aide d'une régression linéaire ou non linéaire (Chapitre 7).Nous allons maintenant examiner les procédures statistiques qu'il convient de mettre en oeuvre pour tester l'existence d'une relation entre deux caractères discrets (quantitatifs ou qualitatifs). La nature de ces caractères interdit en effet l'emploi des procédures de corrélation et de régression et il convient d'utiliser des outils de nature différente pour déterminer la forme de la relation (tableau de contingence) et sa significativité (test du chi-2).
8.1 DESCRIPTION D'UNE RELATION ENTRE DEUX CARACTERES DISCRETS
On considère un ensemble de n individus notés 1...n décrits par deux caractères discrets X et Y. La propriété d'un caractère discret est de posséder un nombre réduit de modalités possibles, inférieur au nombre d'individus (Cf. Chapitre 1). On notera 1...k les différentes modalités possibles de X (k<n) et 1..p les différentes modalités possibles de Y (p<n). Si l'on croise les modalités possibles que peut prendre un individu sur X et Y simultanément, on voit donc qu'il y a k*p croisements possibles
Id X Y 1 X1 X1 . . . . n Xn Yn Exemple : Les 36 étudiants de la promotion 1996 du DESS AIGES de Paris VII sont décrits par un ensemble de variables relatives au sexe, à l'âge et au groupe (il existe deux groupes). On souhaiterait savoir si les hommes et les femmes sont répartis de façon aléatoire entre les deux groupes ou bien s'il existe une représentation plus forte des hommes ou des femmes dans l'un des groupes.
Attributs des étudiants AIGES 1996.
Code Groupe (X) Sexe (Y) 015 1 m bip 1 m cms 1 f dar 1 m kas 1 m lll 1 m ma2 1 m mik 1 m phi 1 m rai 1 m rom 1 f squ 1 m xxx 1 f yar 1 m zic 1 m zor 1 m zzz 1 m ab2 2 f beb 2 f can 2 m coy 2 m eca 2 m fil 2 f flu 2 f fma 2 f fre 2 m goo 2 m ho1 2 f hug 2 m joo 2 m ply 2 f sni 2 m yza 2 f yzc 2 m zo2 2 f zou 2 m La variable Groupe (X) possède deux modalités (k=2) et la variable Sexe (Y) possède deux modalités (p=2). Il existe donc 4 possibilités de croisement : homme du groupe 1, homme du groupe 2, femme du groupe 1, femme du groupe 2.
8.1.1 Du tableau élémentaire au tableau de contingence
Pour déterminer s'il existe une relation entre les deux caractères étudiés, on construit un tableau de contingence, c'est-à-dire un tableau dénombrant les modalités croisées des deux caractères X et Y. Ce tableau aura donc k lignes (nombre de modalités de X) et p colonnes (nombres de modalités de Y). On lui adjoindra des marges où seront effectués les totaux en lignes (effectif de chaque modalité de X), les totaux en colonnes (effectif de chaque modalité de Y) et enfin le total général (nombre n d'individus étudiés).Les différentes cases sont notées de façon abrégée à l'aide d'une variable N munie d'indices appropriés :
- Nij : effectif de la case correspondant à la ième ligne et la jième colonne du tableau, c'est-à-dire nombre d'individus ayant comme attribut la ième modalité de X et la jième modalité de Y.
- Ni. : somme de la ième ligne, c'est-à-dire nombre d'individus ayant comme attribut la ième modalité de X
- N.j : somme de la jème colonne, c'est-à-dire nombre d'individus ayant comme attribut la jème modalité de Y
- N.. : somme générale du tableau, c'est-à-dire nombre total d'individus étudiés
Y1 . . Yj . . Yp Total X1 N11 . . N1j . . N1p N1. . . . . . . . . . . . . . . . . . . Xi Ni1 . . Nij . . Nip Ni. . . . . . . . . . . . . . . . . . . Xk Nk1 . . Nij . . Nkp Nk. Total N.1 . . N.j . . N.p N.. Exemple : construction du tableau de contingence croisant groupe et sexe des étudiants de la promotion AIGES 1996.
Nij Sexe = "f" Sexe = "m" Total Groupe = "1" 3 14 17 Groupe =" 2" 9 10 19 Total 12 24 36 Ce tableau de contingence permet de dénombre tous les cas possibles de modalités simples (un caractère) ou de modalités croisées (deux caractères). On peut ainsi dire qu'il y a 14 étudiants de sexe masculin dans le groupe 1 (case N12), qu'il y a 19 étudiants dans le groupe 2 (case N2.), qu'il y a 24 étudiants de sexe masculin (case N.2) et qu'il y a en tout 36 étudiants (case N..)
8.1.2 Analyse des profils en ligne et des profils en colonnes
Indiquant des effectifs bruts, le tableau de contingence ne permet pas de comparer les proportions d'étudiants de tel ou tel type et ne permet pas de répondre directement à des questions du type "la proportion d'hommes est-elle plus élevée dans le groupe 1 que dans le groupe 2). On construit donc généralement deux tableaux de profils indiquant les pourcentages en lignes ou les pourcentages en colonnes.Le tableau des profils en lignes est construit en divisant l'effectif de chaque case par le total de la ligne correspondante :
Construction des profils en lignes : Nij => Nij / Ni. Le tableau des profils en colonnes est construit en divisant l'effectif de chaque case par le total de la colonne correspondante :
Construction des profils en colonnes : Nij => Nij / N.j L'interprétation des deux tableaux est évidemment différente puisque les rapports ne sont pas effectués sur une même base de référence. Lorsque l'on commente les résultats il faut faire bien attention à ne pas confondre les deux pourcentages décrivant une même case d'un tableau de contingence.
Exemple : Construction des profils en ligne et en colonne du tableau de contingence croisant le groupe et le sexe des étudiants AIGES de la promotion 1996.
Profils en lignes
=> Ce tableau nous indique que la proportion de femmes dans l'ensemble de la promotion est de 33% mais qu'elle est sensiblement plus élevée dans le groupe 2 (47%) que dans le groupe 1 (18%)
Nij / Ni. Sexe = "f" Sexe = "m" Total Groupe = "1" 18 % 82 % 100 % Groupe =" 2" 47 % 53 % 100 % Total 33 % 67 % 100 % Profils en colonnes
=> Ce tableau nous indique que le groupe 1 ne totalise que 47% des étudiants de la promotion. Mais on y trouve 58 % de l'ensemble des hommes et seulement 25 % des femmes de l'ensemble de la promotion.
Nij / N.j Sexe = "f" Sexe = "m" Total Groupe = "1" 25 % 58 % 47 % Groupe =" 2" 75 % 42 % 53 % Total 100 % 100 % 100 % On remarquera qu'une même case du tableau de contingence peut toujours être décrite de deux façon différente. Si l'on prend la case N12 , elle indique que les 9 femmes du groupe 2 représentent 47% des étudiants du groupe 2 et 75% des femmes de la promotion 1996.
8.1.3. Calcul des effectifs théoriques et des écarts à l'indépendance
Une autre manière d'aborder l'étude d'un tableau de contingence consiste à comparer les effectifs observés de chacune des cases (Nij) aux effectifs théoriques (Nij*) qui seraient obtenus s'il n'y avait aucun lien entre les deux modalités X et Y, c'est-à-dire si l'attribution de chaque modalité se faisait de façon indépendante.Pour reconstituer la distribution théorique des k*p cases du tableau de contingence, on va se servir des marges du tableau qui définissent les probabilités conditionelles qu'un individu reçoive telle modalité de X ou de Y.
- La probabilité qu'un individu reçoive la modalité i de X est égale à Ni. / N..
- La probabilité qu'un individu reçoive la modalité j de Y est égale à N.j/N..
- La probabilité qu'un individu reçoive simultanément les modalités i de X et j de Y est donc égale à (Ni.* N.j) / (N.. * N..)
- L'effectif théorique de la case Nij (noté N*ij) est obtenu en multipliant la probabilité qu'un individu reçoive cette modalité par le nombre d'individu (N..). On aboutit donc à la formule générale suivante :
Calcul des effectifs théoriques : N*ij = (Ni. * N .j ) / N.. Cet effectif théorique est celui qui serait obtenu s'il existait une indépendance parfaite entre l'attribution des modalités de X et de Y. Mais il peut évidemment exister des écarts entre la distribution théorique et la distribution observée, soit en raison de fluctuations aléatoires, soit en raison de l'existence d'une dépendance entre les deux caractères X et Y. Avant de tester la significativité cette relation, on peut calculer les écarts à l'indépendance afin de pouvoir décrire la forme d'une éventuelle relation entre les modalités de X et de Y.
Calcul des écarts à l'indépendance : Devij = ( Nij - N*ij) Exemple : Construction de la distribution théorique du tableau de contingence croisant le groupe et le sexe des étudiants AIGES de la promotion 1996.
Profil théorique
=> Ce tableau nous indique, par exemple, que si l'affectation des étudiants à un groupe s'était effectuée indépendamment de leur sexe, il aurait du y avoir 5 ou 6 filles dans le groupe 1 (valeur théorique = 5.7) et non pas 3 comme on l'observe dans la distribution réelle.
N*ij Sexe = "f" Sexe = "m" Total Groupe = "1" 5.7 11.3 17 Groupe =" 2" 6.3 12.7 19 Total 12 24 36 Ecarts à l'indépendance.
=> Ce tableau nous indique qu'il existe une sur-représentation des femmes dans le groupe 2 et donc des hommes dans le groupe 1. Inversement, les femmes sont sous-représentées dans le groupe 1 et les hommes sous-représentés dans le groupe 2. Tous ces écarts s'entendent par rapport à la distribution de référence qui est celle qui serait obtenu si les groupes avaient été construits de façon aléatoire (i.e. sans tenir compte du sexe des étudiants).
Nij - N*ij Sexe = "f" Sexe = "m" Total Groupe = "1" -2.7 +2.7 0 Groupe =" 2" +2.7 -2.7 0 Total 0 0 0
Sachant qu'une distribution empirque ne peut jamais coïncider exactement avec une distribution théorique, la question qui se pose est de savoir si les écarts observés sont l'effet du hasard où s'ils sont les révélateurs d'une corélation significative entre les deux variables X et Y (corrélation que l'on pourrait alors tenter d'expliquer, par exemple en demandant à la personne qui a fait les groupes comment elle a procédé).
8.2 TEST DU CHI-2 ET MESURE DE LA SIGNIFICATIVITE DE LA RELATION ENTRE DEUX CARACTERES DISCRETS
Il existe un grand nombre de tests permettant de mesurer le degré de significativité de la relation entre deux caractères qualitatifs. Certains de ces tests sont adaptés à des situations particulières (tableaux de contingences croisant deux variables ayant chacune 2 modalités) alors que d'autres sont de portée plus générale (tableaux de contingence ayant un nombre de lignes ou de colonnes quelconques).On se bornera dans le cadre de cet enseignement à présenter le test le plus fréquemment utilisé et le mieux adapté à la plupart des situations : le test du chi-2.
8.2.1 Détermination du Chi-2 observé et du nombre de degrés de liberté
L'idée générale du test du Chi-2 est de quantifier la somme des déviations entre effectifs observées et effectifs théoriques qui sont présentes à l'intérieur d'un tableau de contingence à l'aide d'une quantité unique (statistique) puis de comparer la valeur de cette statistique à sa probabilité d'apparition dans le cas d'une série de tirages aux sorts effectués de façon aléatoire en tenant compte de la taille du tableau (nombre de degrés de liberté).Pour éliminer le signe des écarts à l'indépendance, on calcule pour chaque cellule une mesure d'écart à l'indépendance qui soit une quantité toujours positive. Cette quantité appelée Chi-2 local, ou Chi-2 d'une case est égale au carré de l'écart entre valeur observée et valeur théorique, divisé par l'effectif théorique de la case. Il s'agit donc d'un écart relatif qui prend en compte le fait qu'un écart de +3 n'a pas le même sens selon qu'il se rapporte à un effectif théorique de 5 individus ou de 100 individus.
Calcul des Chi-2 locaux : Chi-2ij = (Nij - N* ij )2 / N*ij Plus le Chi-2 local d'une case est élevé, plus la déviation entre valeurs observées et valeurs estimées est significative sur le plan statistique (c'est-à-dire plus elle correspond à un événement rare ayant peu de chance de se produire si les variables X et Y étaient indépendantes).
On résume ensuite la quantité globale de déviation présente à l'intérieur du tableau en calculant la valeur Chi-2Obs qui est la somme de tous les Chi-2 locaux des k*p cases du tableau.
On détermine enfin le nombre z de degrés de liberté qui dépend du nombre de lignes et de colonnes du tableau de contingence et qui exprime le nombre de cases pouvant produire des déviations indépendantes les unes des autres. Dans le cas d'un tableau de contingence à 2 lignes et 2 colonnes, ce nombre de degrés de liberté est égal à 1 puisque, la somme des déviations marginales devant être égale à zéro, il suffit de connaître la déviation d'une case pour trouver par différence les déviations de toutes les autres. D'une manière plus générale, le nombre de degrés de liberté est égal aux nombre de colonnes moins une multiplié par le nombre de lignes moins une, soit :
Détermination du nombre de degrés de liberté : z = (k-1)*(p-1) Exemple : Détermination des Chi-2 locaux et du Chi-2 global du tableau de contingence croisant le groupe et le sexe des étudiants AIGES de la promotion 1996.
=> La déviation la plus significative concerne la sous-représentation des femmes dans le groupe 1. La valeur du Chi-2 total du tableau (somme des quatre chi-2 locaux) est égale à 3.567. Le nombre de degrés de liberté de ce tableau est égal à (2-1)(2-1) soit 1 degré de liberté.
Chi-2ij Sexe = "f" Sexe = "m" Total Groupe = "1" 1.255 0.628 - Groupe =" 2" 1.129 0.561 - Total - - 3.567
8.2.2 Déroulement du test d'indépendance du Chi-2
Le but du test est de déterminer si la valeur observée du Chi-2 correspond à un événement fréquent (en quel cas on ne peut rejeter l'hypothèse d'indépendance) ou à un événement rare (en quel cas on peut rejeter l'hypothèse d'indépendance). Le déroulement du test est le suivant :(1) On pose l'hypothèse H0 : "Il n'y a pas de relation entre les caractères X et Y".
(2) On détermine la valeur Chi-2Obs du tableau étudié.
(3) On détermine le nombre de degrés de liberté z du tableau étudié.
(4) On fixe le risque d'erreur alpha de rejeter H0 à tord (ex. alpha=10%).
(5) On détermine la valeur Chi-2(z,alpha) qui est la valeur de Chi-2 d'un tableau de contingence à z degrés de liberté qui ne serait dépassé que dans alpha % des cas si les variables X et Y étaient indépendantes. Cette valeur est lue dans une table du test du Chi-2 que l'on peut trouver en annexe de tous les manuels de statistique
(6) On procède au test :
H0 est vraie si : Chi-2Obs est inférieur ou égal à Chi-2(z,alpha) (7) Suivant le résultat du test, on accepte H0 ou bien l'on rejette H0 et l'on accepte l'hypothèse inverse H1 ("il y a une relation de dépendance entre X et Y") avec un risque d'erreur de alpha%.
Exemple : Test d'indépendance des variables groupe et sexe des étudiants AIGES de la promotion 1996.
Si l'on se fixe un risque d'erreur alpha=10%, la valeur théorique du Chi-2 correspondant à un degré de liberté est Chi-2(1,0.1)= 2.71. La valeur du Chi-2 observé étant de 3.57, on peut rejeter H0 et affirmer avec un risque d'erreur de 10% que les groupes et les sexes ne sont pas distribués au hasard l'un par rapport à l'autre.
Si l'on se fixe un risque d'erreur plus faible, alpha=5%, la valeur du Chi-2 théorique est Chi-2(1,0.05)= 3.84 et l'on ne peut plus rejeter H0. On conclue alors qu'il n'est pas possible d'affirmer qu'il existe une relation entre les deux caractères X et Y, sauf à admettre un risque d'erreur supérieur à 5%.
Avec les logiciels modernes de statistique, on peut déterminer la valeur minimale de alpha permettant de rejeter H0. Plus cette valeur est faible, plus on peut affirmer avec un faible risque d'erreur qu'il existe une relation entre les deux caractères. Cette valeur minimum de rejet de H0 est donc inversement proportionnelle à la siginficativité de la relation entre les deux caractères étudiés. Dans notre exemple la valeur minimum de alpha est de 0.059 ce qui implique un risque d'erreur de 6% lorsque l'on rejette H0. La relation n'est donc pas très significative et on ne peut pas affirmer avec certitude qu'il existe un lien entre le groupe et le sexe.
En sciences sociales, on retient généralement les seuils conventionnels suivants pour qualifier le degré de significativité des relations statistiques mises en évidences :
Seuil de rejet de H0 Relation ... Symbole > 0.10 ... non significative - 0.05 à 0.10 ... peu significative * 0.01 à 0.05 ... significative ** 0.001 à 0.01 ... très significative *** 0.001 < ... extrêmement significative **** 8.2.3 Conditions de validité du test du Chi-2
Relativement simple à mettre en oeuvre, le test du Chi-2 ne peut cependant être utilisé valablement pour tester l'indépendance de deux caractères X et Y que si certaines conditions très précises sont remplies. Les trois principales sont les suivantes :
Condition n°1 : L'effectif total du tableau de contingence (N..) doit être supérieur ou égal à 20 Condition n°2 : L'effectif marginal du tableau de contingence (Ni. ou N.j) doit toujours être supérieur ou égal à 5.
Condition n°3 : L'effectif théorique (N*ij) des cases du tableau de contingence doit être supérieur à 5 dans 80% des cases du tableau de contingence.
Ces conditions sont évidemment assez contraignantes et elles sont souvent violées lorsque l'on traite des populations de petite taille. On peut toutefois ne pas les respecter lorsque toutes les cases ont "approximativement" le même effectif théorique (le degré d'approximation étant laissé à l'appréciation de l'utilisateur). Il faut en effet savoir que le test du Chi-2 est relativement robuste, ce qui signifie que ses conclusions demeurent en général valide, même lorsque les hypothèses de base ne sont pas tout à fait respectée.
8.2.4 Regroupement de modalités
Lorsque l'on se trouve vraiment trop éloigné des conditions optimales de réalisation d'un test du Chi-2, il vaut mieux adopter l'une des solutions suivantes :(1) si l'effectif total est trop réduit (violation de la condition n°1), le plus simple est d'étendre la collecte des données pour arriver à un effectif suffisant.
(2) si l'effectif total est suffisant mais si celui de certaines lignes, colonnes ou case est trop faible (violation des conditions n°2 et 3) on peut essayer de regrouper des modalités de X (lignes) ou des modalités de Y (colonnes) pour aboutir à des effectifs compatibles avec la réalisation d'un test du Chi-2. Il y a alors deux manières de procéder :
(2-a) méthode inductive : après avoir établi les profils en lignes et en colonnes, on fusionne les modalités de X et de Y qui ont des profils similaires.
(2-b) méthode déductive : sans considérations de profils, on regroupe les modalités en fonction de la connaissance que l'on a du phénomène et de l'hypothèse que l'on veut tester, même si ces lignes et ces colonnes ont des profils opposés
Commentaires :=> La méthode inductive a plus de chance d'aboutir à un rejet de H0 mais elle est criticable puisqu'elle peut aboutir à regrouper ensemble des modalités qui n'ont rien à voir. On ne doit pas perdre de vue qu'une absence de relation entre deux caractères X et Y est un résultat aussi intéressant que la mise en évidence d'une relation significative au seuil de 1 pour 1000. La méthode inductive est toutefois valable si on la considère comme une technique exploratoire et non pas une manière de tester des hypothèses.
=> La méthode déductive paraît plus rigoureuse, à condition que les regroupements ait été effectuées véritablement a priori, sans avoir observé les premiers résultats du tableau de contingence... Autrement, il est souvent trop tentant de rationaliser ce que l'on observe, consciemment ou inconsciemment !
Menu général Chapitre précédent Chapitre suivant