RELATIONS DANS LE TEMPS ET DANS L'ESPACE Claude Grasland
|
Cours Exercices Bibliographie Menu précédent
Un cours détaillé (rédigé en 1998) est accessible en cliquant ici .
1. LE TABLEAU DE CONTINGENCE
1.1 Du tableau élémentaire au tableau de contingence
1.2 Transformations en pourcentage
2. DISTRIBUTION THEORIQUE ET TEST DU CHI-2
2.1 Calcul du profil théorique et des déviations
2.2 Test d'indépendance du Chi-2
2.3 Restrictions à l'utilisation du test du chi-2
DOCUMENT 1 : DU TABLEAU ELEMENTAIRE AU TABLEAU DE CONTINGENCE
On considère un ensemble de n individus
notés 1...n décrits par deux caractères discrets X et
Y. La propriété d'un caractère discret est de posséder un nombre réduit
de modalités possibles, inférieur au nombre d'individus. On notera 1...k les
différentes modalités possibles de X (k<n) et 1..p les différentes modalités
possibles de Y (p<n). Si l'on croise les modalités possibles que peut
prendre un individu sur X et Y simultanément, on voit donc qu'il y a k*p
croisements possibles
Id |
X |
Y |
1 |
X1 |
X1 |
. |
|
|
. |
|
|
. |
|
|
. |
|
|
N |
Xn |
Yn |
Pour déterminer s'il existe une relation entre les deux caractères étudiés, on construit un tableau de contingence, c'est-à-dire un tableau dénombrant les modalités croisées des deux caractères X et Y. Ce tableau aura donc k lignes (nombre de modalités de X) et p colonnes (nombres de modalités de Y). On lui adjoindra des marges où seront effectués les totaux en lignes (effectif de chaque modalité de X), les totaux en colonnes (effectif de chaque modalité de Y) et enfin le total général (nombre n d'individus étudiés).
Les différentes cases sont notées de façon abrégée à l'aide d'une variable N munie d'indices appropriés :
|
Y1 |
. |
. |
Yj |
. |
. |
Yp |
Total |
X1 |
N11 |
. |
. |
N1j |
. |
. |
N1p |
N1. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
Xi |
Ni1 |
. |
. |
Nij |
. |
. |
Nip |
Ni. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
. |
Xk |
Nk1 |
. |
. |
Nij |
. |
. |
Nkp |
Nk. |
Total |
N.1 |
. |
. |
N.j |
. |
. |
N.p |
N.. |
DOCUMENT 2 : ETABLISSEMENT DES PROFILS EN POURCENTAGE
Exemple : Tableau de contingence croisant groupe et sexe des étudiants de la promotion du DESS AIGES 1996.
Nij |
Sexe = "f" |
Sexe = "m" |
Total |
Groupe = "1" |
3 |
14 |
17 |
Groupe =" 2" |
9 |
10 |
19 |
Total |
12 |
24 |
36 |
Le tableau des profils en lignes est construit en divisant l'effectif de chaque case par le total de la ligne correspondante :
Nij = Nij / Ni.
Nij / Ni. |
Sexe = "f" |
Sexe = "m" |
Total |
Groupe = "1" |
18 % |
82 % |
100 % |
Groupe =" 2" |
47 % |
53 % |
100 % |
Total |
33 % |
67 % |
100 % |
Le tableau des profils en colonnes est construit en divisant l'effectif de chaque case par le total de la colonne correspondante :
Nij = Nij / N.j
Nij / N.j |
Sexe = "f" |
Sexe = "m" |
Total |
Groupe = "1" |
25 % |
58 % |
47 % |
Groupe =" 2" |
75 % |
42 % |
53 % |
Total |
100 % |
100 % |
100 % |
Le tableau de profil global est construit en divisant l'effectif de chaque case par l'effectif total du tableau de contingence
Nij = Nij / N..
Nij / N.j |
Sexe = "f" |
Sexe = "m" |
Total |
Groupe = "1" |
8% |
39% |
47% |
Groupe =" 2" |
25% |
28% |
53% |
Total |
33% |
67% |
100% |
DOCUMENT 3 : ETABLISSEMENT DU PROFIL THEORIQUE
Une autre manière d'aborder l'étude d'un tableau de contingence consiste à comparer les effectifs observés de chacune des cases (Nij) aux effectifs théoriques (Nij*) qui seraient obtenus s'il n'y avait aucun lien entre les deux modalités X et Y, c'est-à-dire si l'attribution de chaque modalité se faisait de façon indépendante.
Pour reconstituer la distribution théorique
des k*p cases du tableau de contingence, on va se servir des marges du tableau
qui définissent les probabilités conditionnelles qu'un individu reçoive telle
modalité de X ou de Y.
effectifs théoriques : N*ij = (Ni. * N .j ) / N..
N*ij |
Sexe = "f" |
Sexe = "m" |
Total |
Groupe = "1" |
5.7 |
11.3 |
17 |
Groupe =" 2" |
6.3 |
12.7 |
19 |
Total |
12 |
24 |
36 |
Cet effectif théorique est celui qui serait
obtenu s'il existait une indépendance parfaite entre l'attribution des modalités
de X et de Y. Mais il peut évidemment exister des écarts entre la distribution
théorique et la distribution observée, soit en raison de fluctuations aléatoires,
soit en raison de l'existence d'une dépendance entre les deux caractères X
et Y. Avant de tester la significativité cette relation, on peut calculer
les écarts à l'indépendance afin de pouvoir décrire la forme d'une
éventuelle relation entre les modalités de X et de Y.
écarts à l'indépendance : Devij = ( Nij - N*ij)
Nij - N*ij |
Sexe = "f" |
Sexe = "m" |
Total |
Groupe = "1" |
-2.7 |
+2.7 |
0 |
Groupe =" 2" |
+2.7 |
-2.7 |
0 |
Total |
0 |
0 |
0 |
Sachant qu'une distribution empirique ne peut jamais coïncider exactement avec une distribution théorique, la question qui se pose est de savoir si les écarts observés sont l'effet du hasard où s'ils sont les révélateurs d'une corrélation significative entre les deux variables X et Y (corrélation que l'on pourrait alors tenter d'expliquer ici, par exemple en demandant à la personne qui a fait les groupes du DESS AIGES comment elle a procédé).
DOCUMENT 4 : CALCUL DU CHI-2 ET DU NOMBRE DE DEGRES DE LIBERTE D'UN TABLEAU DE CONTINGENCE
Il existe un grand nombre de tests permettant de mesurer le degré de significativité de la relation entre deux caractères qualitatifs. Certains de ces tests sont adaptés à des situations particulières (tableaux de contingences croisant deux variables ayant chacune 2 modalités) alors que d'autres sont de portée plus générale (tableaux de contingence ayant un nombre de lignes ou de colonnes quelconques). On se bornera dans le cadre de cet enseignement à présenter le test le plus fréquemment utilisé et le mieux adapté à la plupart des situations : le test du chi-2.
L'idée générale du test du Chi-2 est de quantifier la somme des déviations entre effectifs observées et effectifs théoriques qui sont présentes à l'intérieur d'un tableau de contingence à l'aide d'une quantité unique (statistique) puis de comparer la valeur de cette statistique à sa probabilité d'apparition dans le cas d'une série de tirages aux sorts effectués de façon aléatoire en tenant compte de la taille du tableau (nombre de degrés de liberté).
Pour éliminer le signe des écarts à l'indépendance,
on calcule pour chaque cellule une mesure d'écart à l'indépendance qui soit
une quantité toujours positive. Cette quantité appelée Chi-2 local, ou Chi-2
d'une case est égale au carré de l'écart entre valeur observée et valeur théorique,
divisé par l'effectif théorique de la case. Il s'agit donc d'un écart relatif
qui prend en compte le fait qu'un écart de +3 n'a pas le même sens selon
qu'il se rapporte à un effectif théorique de 5 individus ou de 100 individus.
Chi-2ij = (Nij - N* ij )2 / N*ij
Chi-2ij |
Sexe = "f" |
Sexe = "m" |
Total |
Groupe = "1" |
1.255 |
0.628 |
- |
Groupe =" 2" |
1.129 |
0.561 |
- |
Total |
- |
- |
3.567 |
Plus le Chi-2 local d'une case est élevé, plus la déviation entre valeurs observées et valeurs estimées est significative sur le plan statistique (c'est-à-dire plus elle correspond à un événement rare ayant peu de chance de se produire si les variables X et Y étaient indépendantes). On résume ensuite la quantité globale de déviation présente à l'intérieur du tableau en calculant la valeur Chi-2Obs qui est la somme de tous les Chi-2 locaux des k*p cases du tableau.
Chi-2Obs =
Comme la quantité de déviations (Chi-2Obs) varie avec la taille du tableau, on détermine son nombre de degrés de liberté qui est le nombre de lignes moins une multiplié par le nombre de colonnes moins une
d.l. = (k-1) (p-1)
DOCUMENT 5 : DEROULEMENT DU TEST DU CHI-2
Le but du test est de déterminer si la valeur observée du Chi-2 correspond à un événement fréquent (en quel cas on ne peut rejeter l'hypothèse d'indépendance) ou à un événement rare (en quel cas on peut rejeter l'hypothèse d'indépendance). Le déroulement du test est le suivant :
(1) On pose l'hypothèse H0 : "Il n'y a pas de relation entre les caractères X et Y".
(2) On détermine la valeur Chi-2Obs du tableau étudié.
(3) On détermine le nombre de degrés de liberté d.l. du tableau étudié.
(4) On fixe le risque d'erreur alpha de rejeter H0 à tord (ex. alpha=10%).
(5) On détermine à l'aide d'une table la valeur théorique Chi-2(d.l., alpha) qui est la valeur de Chi-2 d'un tableau de contingence à z degrés de liberté qui ne serait dépassé que dans alpha % des cas si les variables X et Y étaient indépendantes. Cette valeur est lue dans une table du test du Chi-2 que l'on peut trouver en annexe de tous les manuels de statistique
(6) On procède au test :
H0 est vraie si : Chi-2Obs est inférieur ou égal à Chi-2(z,alpha)
(7) Suivant le résultat du test, on accepte H0 ou bien l'on rejette H0 et l'on accepte l'hypothèse inverse H1 ("il y a une relation de dépendance entre X et Y") avec un risque d'erreur de alpha.
Exemple : Test d'indépendance des variables groupe et sexe des étudiants AIGES de la promotion 1996.
En sciences sociales, on retient généralement
les seuils conventionnels suivants pour qualifier le degré de significativité
des relations statistiques mises en évidences :
Seuil de rejet de H0 |
Relation ... |
Symbole |
0.10 |
... non significative |
- |
0.05 à 0.10 |
... peu significative |
* |
0.01 à 0.05 |
... significative |
** |
0.01< |
... très significative |
*** |
DOCUMENT 6 : LIMITES A L'UTILISATION DU TEST DU CHI-2
Relativement simple à mettre en oeuvre, le test du Chi-2 ne peut cependant être utilisé valablement pour tester l'indépendance de deux caractères X et Y que si certaines conditions très précises sont remplies. Les trois principales sont les suivantes :
Ces
conditions sont évidemment assez contraignantes et elles sont
souvent violées lorsque l'on traite des populations de petite taille. On
peut toutefois ne pas les respecter lorsque toutes les cases ont "approximativement"
le même effectif théorique (le degré d'approximation étant laissé à l'appréciation
de l'utilisateur). Il faut en effet savoir que le test du Chi-2 est relativement
robuste, ce qui signifie que ses conclusions demeurent en général valide,
même lorsque les hypothèses de base ne sont pas tout à fait respectée.
Lorsque l'on se trouve vraiment trop éloigné des conditions optimales de réalisation d'un test du Chi-2, il vaut mieux adopter l'une des solutions suivantes :
(1) si l'effectif total est trop réduit (violation de la condition n°1), le plus simple est d'étendre la collecte des données pour arriver à un effectif suffisant.
(2) si l'effectif total est suffisant mais si celui de certaines lignes, colonnes ou case est trop faible (violation des conditions n°2 et 3) on peut essayer de regrouper des modalités de X (lignes) ou des modalités de Y (colonnes) pour aboutir à des effectifs compatibles avec la réalisation d'un test du Chi-2. Il y a alors deux manières de procéder :
(2-a) méthode
inductive : après avoir établi
les profils en lignes et en colonnes, on fusionne les modalités de X et de
Y qui ont des profils similaires.
(2-b) méthode déductive : sans considérations de profils, on regroupe les
modalités en fonction de la connaissance que l'on a du phénomène et de l'hypothèse
que l'on veut tester, même si ces lignes et ces colonnes ont des profils
opposés
Commentaires :
DOCUMENT 7 : EXEMPLE D'UTILISATION DU TEST DU CHI-2
(attitude des anglais face à l'avortement en 1983-1986 : enquête du BSA)
(a) tableau de contingence |
|||||||||
AVO |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
Total |
FEMME |
1 |
11 |
25 |
151 |
82 |
75 |
74 |
169 |
588 |
HOMME |
5 |
10 |
27 |
97 |
45 |
49 |
66 |
169 |
468 |
Total |
6 |
21 |
52 |
248 |
127 |
124 |
140 |
338 |
1056 |
(b) pourcentages en ligne |
|||||||||
AVO |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
Total |
FEMME |
0% |
2% |
4% |
26% |
14% |
13% |
13% |
29% |
100% |
HOMME |
1% |
2% |
6% |
21% |
10% |
10% |
14% |
36% |
100% |
Total |
1% |
2% |
5% |
23% |
12% |
12% |
13% |
32% |
100% |
(c) pourcentages en colonnes |
|||||||||
AVO |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
Total |
FEMME |
17% |
52% |
48% |
61% |
65% |
60% |
53% |
50% |
56% |
HOMME |
83% |
48% |
52% |
39% |
35% |
40% |
47% |
50% |
44% |
Total |
100% |
100% |
100% |
100% |
100% |
100% |
100% |
100% |
100% |
(d) pourcentage du total |
|||||||||
AVO |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
Total |
FEMME |
0% |
1% |
2% |
14% |
8% |
7% |
7% |
16% |
56% |
HOMME |
0% |
1% |
3% |
9% |
4% |
5% |
6% |
16% |
44% |
Total |
1% |
2% |
5% |
23% |
12% |
12% |
13% |
32% |
100% |
(e) distribution théorique |
|||||||||
AVO |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
Total |
FEMME |
3.3 |
11.7 |
29.0 |
138.1 |
70.7 |
69.0 |
78.0 |
188.2 |
588 |
HOMME |
2.7 |
9.3 |
23.0 |
109.9 |
56.3 |
55.0 |
62.0 |
149.8 |
468 |
Total |
6 |
21 |
52 |
248 |
127 |
124 |
140 |
338 |
1056 |
(f) écarts à l'indépendance |
|||||||||
AVO |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
Total |
FEMME |
-2.3 |
-0.7 |
-4.0 |
12.9 |
11.3 |
6.0 |
-4.0 |
-19.2 |
0.0 |
HOMME |
2.3 |
0.7 |
4.0 |
-12.9 |
-11.3 |
-6.0 |
4.0 |
19.2 |
0.0 |
Total |
0.0 |
0.0 |
0.0 |
0.0 |
0.0 |
0.0 |
0.0 |
0.0 |
0.0 |
(g) chi-2 des cellules |
|||||||||
AVO |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
Total |
FEMME |
1.64 |
0.04 |
0.54 |
1.21 |
1.80 |
0.51 |
0.20 |
1.96 |
7.90 |
HOMME |
2.06 |
0.05 |
0.68 |
1.52 |
2.26 |
0.65 |
0.25 |
2.46 |
9.93 |
Total |
3.70 |
0.09 |
1.22 |
2.72 |
4.06 |
1.16 |
0.45 |
4.42 |
17.83 |
Valeurs théoriques du Chi-2 pour 7 degrés de liberté
Seuil |
Chi-2 |
0.100 |
12.02 |
0.050 |
14.07 |
0.010 |
18.48 |
DOCUMENT 7 : EXEMPLE D'UTILISATION DU TEST DU CHI-2 (suite)
|
||||
AVO |
CONTRE |
MODERE |
POUR |
Total |
FEMME |
188 |
231 |
169 |
588 |
HOMME |
139 |
160 |
169 |
468 |
Total |
327 |
391 |
338 |
1056 |
(b) pourcentages en ligne |
||||
AVO |
CONTRE |
MODERE |
POUR |
Total |
FEMMES |
32% |
39% |
29% |
100% |
HOMME |
30% |
34% |
36% |
100% |
Total |
31% |
37% |
32% |
100% |
(c) pourcentages en colonnes |
||||
AVO |
CONTRE |
MODERE |
POUR |
Total |
FEMME |
57% |
59% |
50% |
56% |
HOMME |
43% |
41% |
50% |
44% |
Total |
100% |
100% |
100% |
100% |
(d) pourcentage du total |
||||
AVO |
CONTRE |
MODERE |
POUR |
Total |
FEMME |
18% |
22% |
16% |
56% |
HOMME |
13% |
15% |
16% |
44% |
Total |
31% |
37% |
32% |
100% |
(e) distribution théorique |
||||
AVO |
CONTRE |
MODERE |
POUR |
Total |
FEMME |
182.1 |
217.7 |
188.2 |
588 |
HOMME |
144.9 |
173.3 |
149.8 |
468 |
Total |
327 |
391 |
338 |
1056 |
(f) écarts à l'indépendance |
||||
AVO |
CONTRE |
MODERE |
POUR |
Total |
FEMME |
5.9 |
13.3 |
-19.2 |
0.0 |
HOMME |
-5.9 |
-13.3 |
19.2 |
0.0 |
Total |
0.0 |
0.0 |
0.0 |
0.0 |
(g) chi-2 des cellules |
||||
AVO |
CONTRE |
MODERE |
POUR |
Total |
FEMME |
0.19 |
0.81 |
1.96 |
2.96 |
HOMME |
0.24 |
1.02 |
2.46 |
3.72 |
Total |
0.43 |
1.83 |
4.42 |
6.69 |
Valeurs théoriques du Chi-2 pour 2 degrés de liberté
Seuil |
Chi-2 |
0.100 |
4.61 |
0.050 |
5.99 |
0.010 |
9.21 |
En reprenant la démarche précédente, déterminez s'il existe toujours une relation entre le sexe et l'attitude face à l'avortement lorsque l'on ramène les opinions à deux modalités (plutôt pour / plutôt contre). Expliquez la différence de résultat par la nature de la relation entre les deux variables.
(a) tableau de contingence |
|||
AVO |
PLUTOT CONTRE |
PLUTOT POUR |
Total |
FEMME |
188 |
400 |
588 |
HOMME |
139 |
329 |
468 |
Total |
327 |
729 |
1056 |
(b) pourcentages en ligne |
|||
AVO |
PLUTOT CONTRE |
PLUTOT POUR |
Total |
FEMMES |
|
|
|
HOMME |
|
|
|
Total |
|
|
|
(c) pourcentages en colonnes |
|||
AVO |
PLUTOT CONTRE |
PLUTOT POUR |
Total |
FEMME |
|
|
|
HOMME |
|
|
|
Total |
|
|
|
(d) pourcentage du total |
|||
AVO |
PLUTOT CONTRE |
PLUTOT POUR |
Total |
FEMME |
|
|
|
HOMME |
|
|
|
Total |
|
|
|
(e) distribution théorique |
|||
AVO |
PLUTOT CONTRE |
PLUTOT POUR |
Total |
FEMME |
|
|
|
HOMME |
|
|
|
Total |
|
|
|
(f) écarts à l'indépendance |
|||
AVO |
PLUTOT CONTRE |
PLUTOT POUR |
Total |
FEMME |
|
|
|
HOMME |
|
|
|
Total |
|
|
|
(g) chi-2 des cellules |
|||
AVO |
PLUTOT CONTRE |
PLUTOT POUR |
Total |
FEMME |
|
|
|
HOMME |
|
|
|
Total |
|
|
|
Valeurs théoriques du Chi-2 pour 1 degré de liberté
Seuil |
Chi-2 |
0.200 |
1.64 |
0.100 |
2.71 |
0.050 |
3.84 |
0.010 |
6.63 |