GO251
RELATIONS DANS LE TEMPS ET DANS L'ESPACE

Claude Grasland
Université Paris VII / UFR GHSS 

Chapitre 3
MISE EN RELATION DE DEUX CARACTERES QUALITATIFS

Cours     Exercices  Bibliographie  Menu précédent

Documents de cours

Un cours  détaillé (rédigé en 1998)  est accessible en cliquant ici .


PLAN DU CHAPITRE 3

 

1. LE TABLEAU DE CONTINGENCE

 

1.1 Du tableau élémentaire au tableau de contingence

 

1.2 Transformations en pourcentage

 

2. DISTRIBUTION THEORIQUE ET TEST DU CHI-2

 

2.1 Calcul du profil théorique et des déviations

 

2.2 Test d'indépendance du Chi-2

 

2.3 Restrictions à l'utilisation du test du chi-2

 

 


DOCUMENT 1 : DU TABLEAU ELEMENTAIRE AU TABLEAU DE CONTINGENCE

On considère un ensemble de n individus notés 1...n décrits par deux caractères discrets X et Y. La propriété d'un caractère discret est de posséder un nombre réduit de modalités possibles, inférieur au nombre d'individus. On notera 1...k les différentes modalités possibles de X (k<n) et 1..p les différentes modalités possibles de Y (p<n). Si l'on croise les modalités possibles que peut prendre un individu sur X et Y simultanément, on voit donc qu'il y a k*p croisements possibles
 

Id

X

Y

1

X1

X1

.

 

 

.

 

 

.

 

 

.

 

 

N

Xn

Yn

Pour déterminer s'il existe une relation entre les deux caractères étudiés, on construit un tableau de contingence, c'est-à-dire un tableau dénombrant les modalités croisées des deux caractères X et Y. Ce tableau aura donc k lignes (nombre de modalités de X) et p colonnes (nombres de modalités de Y). On lui adjoindra des marges où seront effectués les totaux en lignes (effectif de chaque modalité de X), les totaux en colonnes (effectif de chaque modalité de Y) et enfin le total général (nombre n d'individus étudiés).

Les différentes cases sont notées de façon abrégée à l'aide d'une variable N munie d'indices appropriés :  

 

 

Y1

.

.

Yj

.

.

Yp

Total

X1

N11

.

.

N1j

.

.

N1p

N1.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

Xi

Ni1

.

.

Nij

.

.

Nip

Ni.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

Xk

Nk1

.

.

Nij

.

.

Nkp

Nk.

Total

N.1

.

.

N.j

.

.

N.p

N..




DOCUMENT 2 : ETABLISSEMENT DES PROFILS EN POURCENTAGE

  Exemple : Tableau de contingence croisant groupe et sexe des étudiants de la promotion du DESS AIGES 1996.

Nij

Sexe = "f"

Sexe = "m"

Total

Groupe = "1"

3

14

17

Groupe =" 2"

9

10

19

Total

12

24

36

 

Le tableau des profils en lignes est construit en divisant l'effectif de chaque case par le total de la ligne correspondante :

Nij = Nij / Ni.

Nij / Ni.

Sexe = "f"

Sexe = "m"

Total

Groupe = "1"

18 %

82 %

100 %

Groupe =" 2"

47 %

53 %

100 %

Total

33 %

67 %

100 %

Le tableau des profils en colonnes est construit en divisant l'effectif de chaque case par le total de la colonne correspondante :

Nij = Nij / N.j

 

 Nij / N.j

Sexe = "f"

Sexe = "m"

Total

Groupe = "1"

25 %

58 %

47 %

Groupe =" 2"

75 %

42 %

53 %

Total

100 %

100 %

100 %

Le tableau de profil global est construit en divisant l'effectif de chaque case par l'effectif total du tableau de contingence

Nij = Nij / N..

 

 Nij / N.j

Sexe = "f"

Sexe = "m"

Total

Groupe = "1"

8%

39%

47%

Groupe =" 2"

25%

28%

53%

Total

33%

67%

100%



DOCUMENT 3 : ETABLISSEMENT DU PROFIL THEORIQUE

Une autre manière d'aborder l'étude d'un tableau de contingence consiste à comparer les effectifs observés de chacune des cases (Nij) aux effectifs théoriques (Nij*) qui seraient obtenus s'il n'y avait aucun lien entre les deux modalités X et Y, c'est-à-dire si l'attribution de chaque modalité se faisait de façon indépendante.

Pour reconstituer la distribution théorique des k*p cases du tableau de contingence, on va se servir des marges du tableau qui définissent les probabilités conditionnelles qu'un individu reçoive telle modalité de X ou de Y.
 

  1. La probabilité qu'un individu reçoive la modalité i de X est égale à Ni. / N..
  2. La probabilité qu'un individu reçoive la modalité j de Y est égale à N.j/N..
  3. La probabilité qu'un individu reçoive simultanément les modalités i de X et j de Y est donc égale à (Ni.* N.j) / (N.. * N..)
  4. L'effectif théorique de la case Nij (noté N*ij)  est obtenu en multipliant la probabilité qu'un individu reçoive cette modalité par le nombre d'individu (N..). On aboutit donc à la formule générale suivante

 

effectifs théoriques :     N*ij =  (Ni.    *   N .j ) /  N..

 

N*ij

Sexe = "f"

Sexe = "m"

Total

Groupe = "1"

5.7

11.3

17

Groupe =" 2"

6.3

12.7

19

Total

12

24

36

  

Cet effectif théorique est celui qui serait obtenu s'il existait une indépendance parfaite entre l'attribution des modalités de X et de Y. Mais il peut évidemment exister des écarts entre la distribution théorique et la distribution observée, soit en raison de fluctuations aléatoires, soit en raison de l'existence d'une dépendance entre les deux caractères X et Y. Avant de tester la significativité cette relation, on peut calculer les écarts à l'indépendance afin de pouvoir décrire la forme d'une éventuelle relation entre les modalités de X et de Y.

écarts à l'indépendance :     Devij = (  Nij -  N*ij)

 

 Nij - N*ij

Sexe = "f"

Sexe = "m"

Total

Groupe = "1"

-2.7

+2.7

0

Groupe =" 2"

+2.7

-2.7

0

Total

0

0

0

Sachant qu'une distribution empirique ne peut jamais coïncider exactement avec une distribution théorique, la question qui se pose est de savoir si les écarts observés sont l'effet du hasard où s'ils sont les révélateurs d'une corrélation significative entre les deux variables X et Y (corrélation que l'on pourrait alors tenter d'expliquer ici, par exemple en demandant à la personne qui a fait les groupes du DESS AIGES comment elle a procédé).

 


DOCUMENT 4 : CALCUL DU CHI-2 ET DU NOMBRE DE DEGRES DE LIBERTE D'UN TABLEAU DE CONTINGENCE

 

Il existe un grand nombre de tests permettant de mesurer le degré de significativité de la relation entre deux caractères qualitatifs. Certains de ces tests sont adaptés à des situations particulières (tableaux de contingences  croisant deux variables ayant chacune 2 modalités) alors que d'autres sont de portée plus générale (tableaux de contingence ayant un nombre de lignes ou de colonnes quelconques). On se bornera dans le cadre de cet enseignement à présenter le test le plus fréquemment utilisé et le mieux adapté à la plupart des situations : le test du chi-2.

L'idée générale du test du Chi-2 est de quantifier la somme des déviations entre effectifs observées et effectifs théoriques qui sont présentes à l'intérieur d'un tableau de contingence à l'aide d'une quantité unique (statistique) puis de comparer la valeur de cette statistique à sa probabilité d'apparition dans le cas d'une série de tirages aux sorts effectués de façon aléatoire en tenant compte de la taille du tableau (nombre de degrés de liberté).

Pour éliminer le signe des écarts à l'indépendance, on calcule pour chaque cellule une mesure d'écart à l'indépendance qui soit une quantité toujours positive. Cette quantité appelée Chi-2 local, ou Chi-2 d'une case est égale au carré de l'écart entre valeur observée et valeur théorique, divisé par l'effectif théorique de la case. Il s'agit donc d'un écart relatif qui prend en compte le fait qu'un écart de +3 n'a pas le même sens selon qu'il se rapporte à un effectif théorique de 5 individus ou de 100 individus.

   Chi-2ij =  (Nij  -   N* ij )2 /  N*ij

 

 

 Chi-2ij

Sexe = "f"

Sexe = "m"

Total

Groupe = "1"

1.255

0.628

-

Groupe =" 2"

1.129

0.561

-

Total

-

-

3.567

Plus le Chi-2 local d'une case est élevé, plus la déviation entre valeurs observées et valeurs estimées est significative sur le plan statistique (c'est-à-dire plus elle correspond à un événement rare ayant peu de chance de se produire si les variables X et Y étaient indépendantes). On résume ensuite la quantité globale de déviation présente à l'intérieur du tableau en calculant la valeur Chi-2Obs qui est la somme de tous les Chi-2 locaux des k*p cases du tableau.

 

Chi-2Obs =

 

Comme la quantité de déviations (Chi-2Obs) varie avec la taille du tableau, on détermine son nombre de degrés de liberté qui est le nombre de lignes moins une multiplié par le nombre de colonnes moins une

 

d.l. = (k-1) (p-1)



DOCUMENT 5 : DEROULEMENT DU TEST DU CHI-2

  Le but du test est de déterminer si la valeur observée du Chi-2 correspond à un événement fréquent (en quel cas on ne peut rejeter l'hypothèse d'indépendance) ou à un événement rare (en quel cas on peut rejeter l'hypothèse d'indépendance). Le déroulement du test est le suivant :

(1) On pose l'hypothèse H0 : "Il n'y a pas de relation entre les caractères X et Y".

(2) On détermine la valeur Chi-2Obs du tableau étudié.

(3) On détermine le nombre de degrés de liberté d.l. du tableau étudié.

(4) On fixe le risque d'erreur alpha de rejeter H0 à tord (ex. alpha=10%).

(5) On détermine à l'aide d'une table la valeur théorique Chi-2(d.l., alpha) qui est la valeur de Chi-2 d'un tableau de contingence à z degrés de liberté qui ne serait dépassé que dans alpha % des cas si les variables X et Y étaient indépendantes. Cette valeur est lue dans une table du test du Chi-2 que l'on peut trouver en annexe de tous les manuels de statistique

(6) On procède au test :

H0 est vraie si :         Chi-2Obs est inférieur ou égal à Chi-2(z,alpha) 

(7) Suivant le résultat du test, on accepte H0 ou bien l'on rejette H0 et l'on accepte l'hypothèse inverse H1 ("il y a une relation de dépendance entre X et Y") avec un risque d'erreur de alpha.

Exemple : Test d'indépendance des variables  groupe et  sexe des étudiants AIGES de la promotion 1996.

 

En sciences sociales, on retient généralement les seuils conventionnels suivants pour qualifier le degré de significativité des relations statistiques mises en évidences :
 

Seuil de rejet de H0

Relation  ...

Symbole

  0.10

... non significative

 -

0.05 à 0.10

... peu significative

*

0.01 à 0.05

... significative

**

0.01<

... très significative

***

 

 


DOCUMENT 6 : LIMITES A L'UTILISATION DU TEST DU CHI-2

Relativement simple à mettre en oeuvre, le test du Chi-2 ne peut cependant être utilisé valablement pour tester l'indépendance de deux caractères X et Y que si certaines conditions très précises sont remplies. Les trois  principales sont les suivantes :

 

Ces conditions sont évidemment assez contraignantes et elles sont souvent violées lorsque l'on traite des populations de petite taille. On peut toutefois  ne pas les respecter lorsque toutes les cases ont "approximativement" le même effectif théorique (le degré d'approximation étant laissé à l'appréciation de l'utilisateur). Il faut en effet savoir que le test du Chi-2 est relativement robuste, ce qui signifie que ses conclusions demeurent en général valide, même lorsque les hypothèses de base ne sont pas tout à fait respectée.
 

Lorsque l'on se trouve vraiment trop éloigné des conditions optimales de réalisation d'un test du Chi-2, il vaut mieux adopter l'une des solutions suivantes :

(1) si l'effectif total est trop réduit (violation de la condition n&deg;1), le plus simple est d'étendre la collecte des données pour arriver à un effectif suffisant.

(2) si l'effectif total est suffisant mais si celui de certaines lignes, colonnes ou case est trop faible (violation des conditions n&deg;2 et 3) on peut essayer de regrouper des modalités de X (lignes) ou des modalités de Y (colonnes) pour aboutir à des effectifs compatibles avec la réalisation d'un test du Chi-2. Il y a alors deux manières de procéder :

(2-a) méthode inductive : après avoir établi les profils en lignes et en colonnes, on fusionne les modalités de X et de Y qui ont des profils similaires.
(2-b) méthode déductive : sans considérations de profils, on regroupe les modalités en fonction de la connaissance que l'on a du phénomène et de l'hypothèse que l'on veut tester, même si ces lignes et ces colonnes ont des profils opposés

Commentaires :

 

 


DOCUMENT 7 : EXEMPLE D'UTILISATION DU TEST DU CHI-2

(attitude des anglais face à l'avortement en 1983-1986 : enquête du BSA)

(a) tableau de contingence

AVO

0

1

2

3

4

5

6

7

Total

FEMME

1

11

25

151

82

75

74

169

588

HOMME

5

10

27

97

45

49

66

169

468

Total

6

21

52

248

127

124

140

338

1056

 

(b) pourcentages en ligne

AVO

0

1

2

3

4

5

6

7

Total

FEMME

0%

2%

4%

26%

14%

13%

13%

29%

100%

HOMME

1%

2%

6%

21%

10%

10%

14%

36%

100%

Total

1%

2%

5%

23%

12%

12%

13%

32%

100%

 

(c) pourcentages en colonnes

AVO

0

1

2

3

4

5

6

7

Total

FEMME

17%

52%

48%

61%

65%

60%

53%

50%

56%

HOMME

83%

48%

52%

39%

35%

40%

47%

50%

44%

Total

100%

100%

100%

100%

100%

100%

100%

100%

100%

 

(d) pourcentage du total

AVO

0

1

2

3

4

5

6

7

Total

FEMME

0%

1%

2%

14%

8%

7%

7%

16%

56%

HOMME

0%

1%

3%

9%

4%

5%

6%

16%

44%

Total

1%

2%

5%

23%

12%

12%

13%

32%

100%

 

(e) distribution théorique

AVO

0

1

2

3

4

5

6

7

Total

FEMME

3.3

11.7

29.0

138.1

70.7

69.0

78.0

188.2

588

HOMME

2.7

9.3

23.0

109.9

56.3

55.0

62.0

149.8

468

Total

6

21

52

248

127

124

140

338

1056

 

(f) écarts à l'indépendance

AVO

0

1

2

3

4

5

6

7

Total

FEMME

-2.3

-0.7

-4.0

12.9

11.3

6.0

-4.0

-19.2

0.0

HOMME

2.3

0.7

4.0

-12.9

-11.3

-6.0

4.0

19.2

0.0

Total

0.0

0.0

0.0

0.0

0.0

0.0

0.0

0.0

0.0

 

(g) chi-2 des cellules

AVO

0

1

2

3

4

5

6

7

Total

FEMME

1.64

0.04

0.54

1.21

1.80

0.51

0.20

1.96

7.90

HOMME

2.06

0.05

0.68

1.52

2.26

0.65

0.25

2.46

9.93

Total

3.70

0.09

1.22

2.72

4.06

1.16

0.45

4.42

17.83

 

Valeurs théoriques du Chi-2 pour 7 degrés de liberté

Seuil

Chi-2

0.100

12.02

0.050

14.07

0.010

18.48

 

 

DOCUMENT 7 : EXEMPLE D'UTILISATION DU TEST DU CHI-2 (suite)

 


  (a) tableau de contingence

AVO

CONTRE

MODERE

POUR

Total

FEMME

188

231

169

588

HOMME

139

160

169

468

Total

327

391

338

1056

 

(b) pourcentages en ligne

AVO

CONTRE

MODERE

POUR

Total

FEMMES

32%

39%

29%

100%

HOMME

30%

34%

36%

100%

Total

31%

37%

32%

100%

 

(c) pourcentages en colonnes

AVO

CONTRE

MODERE

POUR

Total

FEMME

57%

59%

50%

56%

HOMME

43%

41%

50%

44%

Total

100%

100%

100%

100%

 

(d) pourcentage du total

AVO

CONTRE

MODERE

POUR

Total

FEMME

18%

22%

16%

56%

HOMME

13%

15%

16%

44%

Total

31%

37%

32%

100%

 

(e) distribution théorique

AVO

CONTRE

MODERE

POUR

Total

FEMME

182.1

217.7

188.2

588

HOMME

144.9

173.3

149.8

468

Total

327

391

338

1056

 

(f) écarts à l'indépendance

AVO

CONTRE

MODERE

POUR

Total

FEMME

5.9

13.3

-19.2

0.0

HOMME

-5.9

-13.3

19.2

0.0

Total

0.0

0.0

0.0

0.0

 

(g) chi-2 des cellules

AVO

CONTRE

MODERE

POUR

Total

FEMME

0.19

0.81

1.96

2.96

HOMME

0.24

1.02

2.46

3.72

Total

0.43

1.83

4.42

6.69

 

Valeurs théoriques du Chi-2 pour 2 degrés de liberté

Seuil

Chi-2

0.100

4.61

0.050

5.99

0.010

9.21

 

 


Exercices

En reprenant la démarche précédente, déterminez s'il existe toujours une relation entre le sexe et l'attitude face à l'avortement lorsque l'on ramène les opinions à deux modalités (plutôt pour / plutôt contre). Expliquez la différence de résultat par la nature de la relation entre les deux variables. 

 

(a) tableau de contingence

AVO

PLUTOT CONTRE

PLUTOT POUR

Total

FEMME

188

400

588

HOMME

139

329

468

Total

327

729

1056

 

(b) pourcentages en ligne

AVO

PLUTOT CONTRE

PLUTOT POUR

Total

FEMMES

 

 

 

HOMME

 

 

 

Total

 

 

 

 

(c) pourcentages en colonnes

AVO

PLUTOT CONTRE

PLUTOT POUR

Total

FEMME

 

 

 

HOMME

 

 

 

Total

 

 

 

 

(d) pourcentage du total

AVO

PLUTOT CONTRE

PLUTOT POUR

Total

FEMME

 

 

 

HOMME

 

 

 

Total

 

 

 

 

(e) distribution théorique

AVO

PLUTOT CONTRE

PLUTOT POUR

Total

FEMME

 

 

 

HOMME

 

 

 

Total

 

 

 

 

(f) écarts à l'indépendance

AVO

PLUTOT CONTRE

PLUTOT POUR

Total

FEMME

 

 

 

HOMME

 

 

 

Total

 

 

 

 

(g) chi-2 des cellules

AVO

PLUTOT CONTRE

PLUTOT POUR

Total

FEMME

 

 

 

HOMME

 

 

 

Total

 

 

 

 

Valeurs théoriques du Chi-2 pour 1 degré de liberté

Seuil

Chi-2

0.200

1.64

0.100

2.71

0.050

3.84

0.010

6.63

 



 

Bibliographie