Chapitre 8 : TABLEAU DE CONTINGENCE ET TEST DU CHI-2

 

 
Menu général
Chapitre précédent
Chapitre suivant

 

INTRODUCTION

Nous avons vu au cours des deux chapitres précédents comment il était possible de tester l'existence d'une relation entre deux caractères quantitatifs continus à l'aide de coefficients de corrélation (Chapitre 6) puis de modéliser cette relation à l'aide d'une régression linéaire ou non linéaire (Chapitre 7).

Nous allons maintenant examiner les procédures statistiques qu'il convient de mettre en oeuvre pour tester l'existence d'une relation entre deux caractères discrets (quantitatifs ou qualitatifs). La nature de ces caractères interdit en effet l'emploi des procédures de corrélation et de régression et il convient d'utiliser des outils de nature différente pour déterminer la forme de la relation (tableau de contingence) et sa significativité (test du chi-2).
 
 

8.1 DESCRIPTION D'UNE RELATION ENTRE DEUX CARACTERES DISCRETS


On considère un ensemble de n individus notés 1...n décrits par deux caractères discrets X et Y. La propriété d'un caractère discret est de posséder un nombre réduit de modalités possibles, inférieur au nombre d'individus (Cf. Chapitre 1). On notera 1...k les différentes modalités possibles de X (k<n) et 1..p les différentes modalités possibles de Y (p<n). Si l'on croise les modalités possibles que peut prendre un individu sur X et Y simultanément, on voit donc qu'il y a k*p croisements possibles
 
Id
X
Y
1
X1
X1
.
   
.
   
.
   
.
   
n
Xn
Yn

Exemple : Les 36 étudiants de la promotion 1996 du  DESS AIGES de Paris VII sont décrits par un ensemble de variables relatives au sexe, à l'âge et au groupe (il existe deux groupes). On souhaiterait savoir si les hommes et les femmes sont répartis de façon aléatoire entre les deux groupes ou bien s'il existe une représentation plus forte des hommes ou des femmes dans l'un des groupes.

Attributs des étudiants AIGES 1996.
Code
Groupe (X)
Sexe (Y)
015
1
m
bip
1
m
cms
1
f
dar
1
m
kas
1
m
lll
1
m
ma2
1
m
mik
1
m
phi
1
m
rai
1
m
rom
1
f
squ
1
m
xxx
1
f
yar
1
m
zic
1
m
zor
1
m
zzz
1
m
ab2
2
f
beb
2
f
can
2
m
coy
2
m
eca
2
m
fil
2
f
flu
2
f
fma
2
f
fre
2
m
goo
2
m
ho1
2
f
hug
2
m
joo
2
m
ply
2
f
sni
2
m
yza
2
f
yzc
2
m
zo2
2
f
zou
2
m

La variable Groupe (X) possède deux modalités (k=2) et la variable Sexe (Y) possède deux modalités (p=2). Il existe donc 4 possibilités de croisement : homme du groupe 1, homme du groupe 2, femme du groupe 1, femme du groupe 2.
 

8.1.1 Du tableau élémentaire au tableau de contingence

Pour déterminer s'il existe une relation entre les deux caractères étudiés, on construit un tableau de contingence, c'est-à-dire un tableau dénombrant les modalités croisées des deux caractères X et Y. Ce tableau aura donc k lignes (nombre de modalités de X) et p colonnes (nombres de modalités de Y). On lui adjoindra des marges où seront effectués les totaux en lignes (effectif de chaque modalité de X), les totaux en colonnes (effectif de chaque modalité de Y) et enfin le total général (nombre n d'individus étudiés).

Les différentes cases sont notées de façon abrégée à l'aide d'une variable N munie d'indices appropriés :
 

Y1 . . Yj . . Yp Total
X1 N11 . . N1j . . N1p N1.
. . . . . . . . .
. . . . . . . . .
Xi Ni1 . . Nij . . Nip Ni.
. . . . . . . . .
. . . . . . . . .
Xk Nk1 . . Nij . . Nkp Nk.
Total N.1 . . N.j . . N.p N..

Exemple : construction du tableau de contingence croisant groupe et sexe des étudiants de la promotion AIGES 1996.
Nij
Sexe = "f"
Sexe = "m"
Total
Groupe = "1"
3
14
17
Groupe =" 2"
9
10
19
Total
12
24
36

Ce tableau de contingence permet de dénombre tous les cas possibles de modalités simples (un caractère) ou de modalités croisées (deux caractères). On peut ainsi dire qu'il y a 14 étudiants de sexe masculin dans le groupe 1 (case N12), qu'il y a 19 étudiants dans le groupe 2 (case N2.), qu'il y a 24 étudiants de sexe masculin (case N.2) et qu'il y a en tout 36 étudiants (case N..)
 

8.1.2 Analyse des profils en ligne et des profils en colonnes

Indiquant des effectifs bruts, le tableau de contingence ne permet pas de comparer les proportions d'étudiants de tel ou tel type et ne permet pas de répondre directement à des questions du type "la proportion d'hommes est-elle plus élevée dans le groupe 1 que dans le groupe 2). On construit donc généralement deux tableaux de profils indiquant les pourcentages en lignes ou les pourcentages en colonnes.

Le tableau des profils en lignes est construit en divisant l'effectif de chaque case par le total de la ligne correspondante :
Construction des profils en lignes :     Nij => Nij / Ni.

Le tableau des profils en colonnes est construit en divisant l'effectif de chaque case par le total de la colonne correspondante :
Construction des profils en colonnes :     Nij => Nij / N.j

L'interprétation des deux tableaux est évidemment différente puisque les rapports ne sont pas effectués sur une même base de référence. Lorsque l'on commente les résultats il faut faire bien attention à ne pas confondre les deux pourcentages décrivant une même case d'un tableau de contingence.

Exemple : Construction des profils en ligne et en colonne du tableau de contingence croisant le groupe et le sexe des étudiants AIGES de la promotion 1996.

Profils en lignes
Nij / Ni.
Sexe = "f"
Sexe = "m"
Total
Groupe = "1"
18 %
82 %
100 %
Groupe =" 2"
47 %
53 %
100 %
Total
33 %
67 %
100 %
=> Ce tableau nous indique que la proportion de femmes dans l'ensemble de la promotion est de 33% mais qu'elle est sensiblement plus élevée dans le groupe 2 (47%) que dans le groupe 1 (18%)

Profils en colonnes
 Nij / N.j
Sexe = "f"
Sexe = "m"
Total
Groupe = "1"
25 %
58 %
47 %
Groupe =" 2"
75 %
42 %
53 %
Total
100 %
100 %
100 %
=> Ce tableau nous indique que le groupe 1 ne totalise que 47% des étudiants de la promotion. Mais on y trouve 58 % de l'ensemble des hommes et seulement 25 % des femmes de l'ensemble de la promotion.

On remarquera qu'une même case du tableau de contingence peut toujours être décrite de deux façon différente. Si l'on prend la case N12 , elle indique que les 9 femmes du groupe 2 représentent 47% des étudiants du groupe 2 et 75% des femmes de la promotion 1996.
 

8.1.3. Calcul des effectifs théoriques et des écarts à l'indépendance

Une autre manière d'aborder l'étude d'un tableau de contingence consiste à comparer les effectifs observés de chacune des cases (Nij) aux effectifs théoriques (Nij*) qui seraient obtenus s'il n'y avait aucun lien entre les deux modalités X et Y, c'est-à-dire si l'attribution de chaque modalité se faisait de façon indépendante.

Pour reconstituer la distribution théorique des k*p cases du tableau de contingence, on va se servir des marges du tableau qui définissent les probabilités conditionelles qu'un individu reçoive telle modalité de X ou de Y.
 

  1. La probabilité qu'un individu reçoive la modalité i de X est égale à Ni. / N..
  2. La probabilité qu'un individu reçoive la modalité j de Y est égale à N.j/N..
  3. La probabilité qu'un individu reçoive simultanément les modalités i de X et j de Y est donc égale à (Ni.* N.j) / (N.. * N..)
  4. L'effectif théorique de la case Nij (noté N*ij)  est obtenu en multipliant la probabilité qu'un individu reçoive cette modalité par le nombre d'individu (N..). On aboutit donc à la formule générale suivante :
Calcul des effectifs théoriques :     N*ij =  (Ni.    *   N .j ) /  N..

Cet effectif théorique est celui qui serait obtenu s'il existait une indépendance parfaite entre l'attribution des modalités de X et de Y. Mais il peut évidemment exister des écarts entre la distribution théorique et la distribution observée, soit en raison de fluctuations aléatoires, soit en raison de l'existence d'une dépendance entre les deux caractères X et Y. Avant de tester la significativité cette relation, on peut calculer les écarts à l'indépendance afin de pouvoir décrire la forme d'une éventuelle relation entre les modalités de X et de Y.
 
Calcul des écarts à l'indépendance :     Devij = (  Nij -  N*ij)

Exemple : Construction de la distribution théorique du tableau de contingence croisant le groupe et le sexe des étudiants AIGES de la promotion 1996.

Profil théorique
N*ij Sexe = "f" Sexe = "m" Total
Groupe = "1" 5.7 11.3 17
Groupe =" 2" 6.3 12.7 19
Total 12 24 36
=> Ce tableau nous indique, par exemple, que si l'affectation des étudiants à un groupe s'était effectuée indépendamment de leur sexe, il aurait du y avoir 5 ou 6 filles dans le groupe 1 (valeur théorique = 5.7) et non pas 3 comme on l'observe dans la distribution réelle.

Ecarts à l'indépendance.
 Nij - N*ij
Sexe = "f"
Sexe = "m"
Total
Groupe = "1"
-2.7
+2.7
0
Groupe =" 2"
+2.7
-2.7
0
Total
0
0
0
=> Ce tableau nous indique qu'il existe une sur-représentation des femmes dans le groupe 2  et donc des hommes dans le groupe 1. Inversement, les femmes sont sous-représentées dans le groupe 1 et les hommes sous-représentés dans le groupe 2. Tous ces écarts s'entendent par rapport à la distribution de référence qui est celle qui serait obtenu si les groupes avaient été construits de façon aléatoire (i.e. sans tenir compte du sexe des étudiants).
 

Sachant qu'une distribution empirque ne peut jamais coïncider exactement avec une distribution théorique, la question qui se pose est de savoir si les écarts observés sont l'effet du hasard où s'ils sont les révélateurs d'une corélation significative entre les deux variables X et Y (corrélation que l'on pourrait alors tenter d'expliquer, par exemple en demandant à la personne qui a fait les groupes comment elle a procédé).
 

8.2 TEST DU CHI-2 ET MESURE DE LA  SIGNIFICATIVITE  DE LA RELATION ENTRE DEUX CARACTERES DISCRETS