cours 3 stat Flashcards
TEST POUR DEUX PROPORTIONS
Construction du test (1)
• Sous H0 : pA = pB = p • On construit un test basé sur la distribution de PA - PB sous H0 • Soit D = PA- PB – E(D ) = pA - pB – Var (PA) = pA (1 - pA) / nA – Var (PB) = pB (1 - pB) / nB – Var (D) = Var (PA) + Var (PB) • On ne connaît pas pA et pB • En fait, on estime Var(D) sous H0, en utilisant la proportion commune p estimée sur l’ensemble de l’échantillon (nA + nB)
TEST POUR DEUX PROPORTIONS
Construction du test (2)
• On calcule p pour estimer p la proportion totale de x = 1 sur les deux échantillons p = napa + nbpb / na+nb – moyenne pondérée des proportions observées – si nA= nB : alors p = (pA+ pB ) / 2 • Sous H0, – E(D) = 0 – Var (D) ~ p(1-p)/nA + p(1-p)/nB – Var (D) ~ p(1-p) ( 1/ nA + 1/ nB) – si nA= nB : alors Var (D) ~ 2 p(1-p) / n
TEST POUR DEUX PROPORTIONS
Construction du test
• Soit z= pa-pb / √ p(1-p) (1/na + 1/nb) • Sous H0 – E(Z) = 0 – Var (Z) = Var(D) / p(1-p) (1/na + 1/nb) = 1 – si grands échantillons • nA p et nA (1- p ) ≥ 5 • nB p et nB (1- p ) ≥ 5 Z ~ N (0 ; 1) • Zone de rejet de H0 au risque 5% : | z | > 1,96
(3)TEST DU ki2 : ADEQUATION A UN
MODELE THEORIQUE
2.1 Principe du test
• On a une variable X à k modalités : x1, …, xk
• La distribution de X dans la population est :
– πi = P(X = xi), i =1, …, k
– appelée distribution théorique ou répartition
théorique
• On étudie X sur un échantillon de taille n, et on
observe des proportions p1, …, pk de chaque
modalité
• On se demande si la répartition observée de X
est compatible avec une distribution théorique
de référence : π10, … , πk0
• On a : somme πi0 = 1
test du ki2
hypothese
• Test de comparaison d’une distribution observée à une distribution théorique = test de comparaison de k proportions observées à k proportions théoriques • Hypothèse nulle : la distribution de X est égale à la distribution théorique de référence – H0 : π1 = π10 π2 = π20 ... πk = πk0 • Hypothèse alternative : la distribution de X diffère de la répartition de référence – H1 : πi ≠ πi0 pour au moins une modalité i
test du ki2
construction test 1
• Sous H0 : fluctuations d’échantillonnage
attendues de P1, …, Pk
• On quantifie l’écart entre les valeurs attendues
sous H0 et les valeurs observées
• Test du c2 basé sur les effectifs attendus et les
effectifs observés
– effectifs observés dans chaque classe
• O1, …, Ok
• Oi = n pi
– effectifs attendus dans chaque classe, ou
effectifs théoriques ou effectifs calculés
• sous H0
• C1 = n π10, C2 = n π20, …, Ck = n πk0
test du ki2
construction test 2
validation Ho
condition validite
• On montre que si H0 est vraie, la quantité
K = (O1-C1)^2/C1 + (O2-C2)^2/C2 + ….+ (Ok-Ck)^2/Ck
suit un c2 à (k-1) d.d.l.
• Conditions de validité : n « assez grand »
– Ci ≥ 5, pour tous les i = 1, …, k
• Règle de décision
– si K > c20,05 (k-1) : rejet de H0
– sinon : non rejet de H0
• Rejet de H0
– calcul du degré de signification
– p = P(c2 (k-1) > K)
– la distribution dans la population dont est issu l’échantillon diffère de la distribution de référence
Variable à deux modalités (1)
• Cas particulier : variable à 2 modalités
– k = 2
– X variable de Bernoulli
– probabilités π et 1- π
– échantillon de taille n
– proportions observées p et 1-p
• Test de comparaison à une distribution de
référence
– H0 : π = π0 (et 1- π = 1- π0 )
– idem test de comparaison d’une proportion
observée à une proportion théorique
• Equivalence du test du ki2 et du test basé sur Z
Variable à deux modalités (2)
K et z
K = (np-nπo)^2/nπo + (n(1-p) - n(1-πo))^2 / n(1-πo)
z = p-πo/√ (πo(1-πo)/n)
• On montre que K = z2 • Sous H0 – K suit un c2 à 1 d.d.l. – Z suit une N(0 ; 1) – or c2 (1) = Z2 • Donc mêmes zones de rejet des deux tests – |z| > 1,96 – K > 3,84 = 1,962 • Les conditions de validité sont les mêmes – C1 = np0 et C2 = n(1- p0 5 • Les deux tests sont identiques
TESTS DU c2 D’HOMOGENEITE ET
D’INDEPENDANCE
3.1 Liaison entre deux variables catégorielles (1)
• On s’intéresse à deux variables catégorielles et
au lien entre les deux.
– ex1 : on a la répartition des groupes sanguins
(A, B, AB, O) dans 4 villes ; diffère-t-elle
d’une ville à l’autre ?
– ex2 : y-a-t-il un lien entre la taille de la tumeur
(petite / moyenne / grosse) et la survie à 5
ans (vivante / décédée) chez des femmes
ayant un cancer du sein ?
• En fait on cherche à tester l’indépendance entre
deux variables
TESTS DU c2 D’HOMOGENEITE ET
D’INDEPENDANCE
3.1 Liaison entre deux variables catégorielles (1)
propriete independance
• Rappel : deux événements sont indépendants
si et seulement si P(A et B) = P(A)P(B)
• Deux variables catégorielles X et Y à plusieurs
modalités sont indépendantes si et seulement
si les événements {X = xi} et {Y = yj} sont
indépendants pour toutes les modalités de X et
de Y
• Idem pour X et/ou Y variables quantitatives
discrètes
• Indépendance entre X et Y : la répartition des
modalités de X est la même pour toutes les
modalités de Y
TESTS DU c2 D’HOMOGENEITE ET
D’INDEPENDANCE
Tests du c2
1 - c2 d’homogénéité : on a une variable X à c
modalités
– on l’étudie dans l groupes
– on veut savoir si la distribution théorique de
X est identique dans les l populations dont
sont extraits les échantillons
• ex : groupes sanguins dans plusieurs villes
2 - c2 d’indépendance : on a deux variables X (à c
modalités) et Y (à l modalités)
– on les étudie sur un échantillon
– on veut savoir si les variables X et Y sont
indépendantes
• ex : liaison entre taille de tumeur et survie
TESTS DU c2 D’HOMOGENEITE ET
D’INDEPENDANCE
Tests du c2
construction
• Même calcul pour le test du c2 d’homogénéité ou
d’indépendance
• Dans le tableau de contingence
– Oij : effectif observé pour la ième ligne et la jème
colonne
• Fluctuations d’échantillonnage des Oij sous H0
• Sous H0
– évaluation des effectifs calculés
– si X et Y sont indépendantes
• P(X = xj, Y = yi) = P(X = xj) P(Y = yi)
• P(X = xj, Y = yi) = (mj/n) (ni/n)
– donc Cij = n (mj/n) (ni/n) = mjni/n
TESTS DU c2 D’HOMOGENEITE ET
D’INDEPENDANCE
Tests du c2
construction 2
• On montre que si H0 est vraie, la quantité K = somme l somme c (Oij - Cij)^2 / Cij suit un c2 à (c-1)(l-1) d.d.l. • Conditions de validité : – Cij ≥ 5, pour tous les i = 1, ...,l ; j =1,..., c • Construction du test – si K > c20,05 (c-1)(l-1) : rejet de H0 • Rejet de H0 – degré de signification : P(c2 (c-1)(l-1) > K) – les répartitions diffèrent – les deux variables ne sont pas indépendantes (elles sont liées)