Cours 2 stat Flashcards

1
Q

Réalisation d’un test statistique : formulation des hypothèses 1

A

 Les hypothèses d’un test statistique sont au nombre de deux :
• L’hypothèse nulle, notée 𝐻0 : est celle que l’on souhaite rejeter
• L’hypothèse alternative, notée 𝐻1
 Ces hypothèses doivent couvrir toutes les possibilités et ne pas pouvoir être vraies simultanément :
• soit l’une est vraie, soit c’est l’autre, mais pas les deux.
 Ces hypothèses portent sur les paramètres (valeurs théoriques) de lois de probabilité
• Pas d’hypothèse sur des valeurs observées (pour lesquelles une décision serait facile !!)
• Mais sur des valeurs théoriques inconnues

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

possibilité pour l’hypothese nul

A

 En général, l’hypothèse nulle fait intervenir une égalité (hypothèse simple)
• Exemple : 𝜋 = 𝜋0, 𝜇𝐴 = 𝜇𝐵
• L’égalité permettra de déterminer la loi de la statistique de test sous l’hypothèse nulle et de
construire une zone de rejet
 Autre possibilité pour une hypothèse nulle : l’indépendance entre deux variables aléatoires binaires
ou catégorielles
• Exemple : si 𝜋𝐴 désigne le risque de complication avec un traitement A (et 𝜋𝐵 avec le traitement
B), alors 𝜋𝐴= 𝜋𝐵 est équivalent à l’indépendance entre la variable « complication » et la variable
« traitement »
 En général, l’hypothèse alternative est moins précise (on parle d’hypothèse composite)
• Exemple : 𝜋 ≠ 𝜋0, 𝜇𝐴 ≠ 𝜇𝐵
• Pour déterminer la loi de la statistique de test sous l’hypothèse alternative, il faudra le plus
souvent faire des hypothèses supplémentaires (cf calcul de puissance plus tard)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

construction de la statistique de test

A

 A partir de l’observation d’un 𝑛-échantillon, on souhaite construire une statistique (= fonction des
observations), dont la loi sous l’hypothèse nulle est connue et simple
 En pratique, la loi en question sera très souvent :
• La loi 𝑁(0,1)
• Une loi du 𝜒² à 𝑘 degrés de libertés, 𝑘 étant fixé par les conditions de l’expérience
 Cela nécessitera souvent l’application du TCL, donc des conditions de validités à vérifier
• Rappel : 𝑛 ≥ 30 ou 𝑛𝜋 ≥ 5 et 𝑛(1 − 𝜋) ≥ 5

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

construction de la statistique de test 2

zone rejet

A

 La connaissance de la loi sous 𝑯𝟎 de la statistique de test permet de définir une zone de rejet.
 On se donne 𝛼 ∈ [0,1], appelé « risque de première espèce » ou « erreur de type 1 » ou « risque
alpha »
• Habituellement, 𝛼=5% dans la recherche biomédicale
• Mais rien n’interdit de choisir une autre valeur dans un exercice…
 On choisit la zone de rejet de sorte que sa probabilité sous 𝑯𝟎 soit égale à 𝛼. Son complémentaire est
donc un intervalle de pari de niveau 1 − 𝛼
 On décide de rejeter l’hypothèse nulle si la réalisation de la statistique de test est dans la zone de
rejet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

erreur de type II et puissance

A

 On suppose maintenant que c’est l’hypothèse alternative 𝐻1 qui est vraie.
 La probabilité que la statistique de test tombe dans la zone de rejet (et donc que l’hypothèse nulle soit
rejetée) s’appelle puissance et se note 1 − 𝛽
• On souhaite que cette quantité soit la plus grande possible !
 La probabilité complémentaire se note 𝛽 et s’appelle « risque de deuxième espèce », « risque bêta »
ou « erreur de type II ».
• C’est la probabilité de ne pas rejeter de l’hypothèse nulle alors qu’elle était fausse
• On la souhaite la plus petite possible !

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

puissance augmente si

A

– augmenter la taille de l’échantillon

– changer H1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

conclusion d’un test statistique

A

 Un test statistique peut avoir uniquement deux conclusions :
 Si la statistique observée tombe dans la zone de rejet pour 𝛼 = 5%, alors la conclusion est :
• On rejette l’hypothèse nulle au risque 5%
Cela ne signifie pas que l’hypothèse nulle est fausse car on a pu commettre une erreur de type I
 Si la statistique observée tombe en dehors de la zone de rejet pour 𝛼 = 5%, alors la conclusion est :
• On ne peut pas rejeter l’hypothèse nulle au risque 5%
Cela ne signifie pas que l’hypothèse nulle est vraie car on a pu commettre une erreur de type II
 En particulier, on « n’accepte » jamais l’hypothèse nulle car le test est fait pour la rejeter, et qu’il a pu
manquer de puissance.
Ne pas parvenir à prouver qu’un traitement est efficace, ce n’est pas la même chose que prouver qu’il
est inefficace

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

degres de signification

A

 En cas de rejet de l’hypothèse nulle (et seulement dans ce cas), on peut s’intéresser au risque alpha
le plus petit que l’on aurait pu prendre tout en continuant à rejeter 𝐻0
• Rappel : la puissance diminue lorsque 𝛼 diminue
• En baissant 𝛼, on va donc finir par ne plus rejeter 𝐻0
 Cette valeur se note 𝑝 et s’appelle degré de signification. Plus il est petit, et plus les observations
sont extrêmes, si l’on fait l’hypothèse que 𝐻0 est vraie.
 Le degré de signification est donc calculé a posteriori
en cas de rejet de 𝐻0. Il est nécessairement plus petit que
le risque alpha.
Pour le déterminer, on lit les tables « à l’envers » :
On part de la statistique observée Z et on remonte
au niveau 𝛼
• Cela fournit le plus souvent un encadrement de 𝑝

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

test parametrique

A

– utilise la loi de distribution de la statistique
étudiée
• loi normale de la proportion ou de la moyenne
observée
– suppose que les conditions de validité du
théorème central limite sont vérifiées
• implique « grand(s) » échantillons

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

conclu risque associe a un test

A

• a : risque de première espèce (erreur de type I)
– P(rejet H0 / H0 vraie)
• b : risque de deuxième espèce (erreur de type II)
ou manque de puissance
– P(non rejet H0 / H0 fausse)
– 1 - b : puissance du test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

si non rejet Ho

A

– ou H0 est vraie
– ou H0 est fausse mais on n’a pas pu le mettre en
évidence
• erreur de deuxième espèce (b)
• manque de puissance : effectifs trop faibles ?
– le risque de deuxième espèce n’est pas contrôlé
on ne peut pas « accepter » H0
les observations sont « compatibles » avec H0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

si rejet Ho

A

– ou H0 est vraie et on a observé un échantillon peu
probable (risque de premier espèce « limité » à 5 %)
– ou H0 est fausse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

TEST DE COMPARAISON D’UNE
MOYENNE A UNE NORME
base

A

• Test de comparaison d’une moyenne observée
à une moyenne théorique ou « norme »
• On s’intéresse à une variable X continue
• On observe, à partir d’un échantillon de n
valeurs xi, une moyenne expérimentale m
• X a une moyenne théorique m = E(X)
• Hypothèses :
– H0 : m = m0
– H1 : m  m0
• Grand échantillon : n  30

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

TEST DE COMPARAISON D’UNE
MOYENNE A UNE NORME
Construction du test

A
• Conditions de validité
– n  30
• Sous H0 : m = m0
– donc M ~ N(m0 ;s2 /n)
– on estime s2 par s2
• Soit
Z = M-uo / racine (s^2/n)
Z suit une loi normale car M suit une loi normale
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

TEST DE COMPARAISON D’UNE
MOYENNE A UNE NORME
puissance du test

A

Calcul de puissance
on va mettre un u qui n’est pas egal a uo
P(rejet H0 / H1 vraie )= P ( | Z ’| > 1,96 / u = u1)
• Z’ = M -uo / racine (s^2/n)
Z’ ~ N(u-uo ; 1)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

TEST DE COMPARAISON DE DEUX
MOYENNES AVEC ECHANTILLONS
INDEPENDANTS

A
• XA et XB deux v. a. indépendantes
– E(XA) = mA , E(XB) = mB
– Var (XA) = sigA^2 , Var (XB) = sigB^2
• Soit deux échantillons indépendants :
– nA valeurs de XA et nB valeurs de XB
– moyennes expérimentales : mA et mB
– différence des moyennes : d = mA - mB
• Fluctuations d’échantillonnage de d
– dépendent des lois de MA et MB
– D = MA - MB
– E(D) = E(MA - MB) = mA - mB
– Var (D) = siga^2 /na + sigb^2 /nb
17
Q
TEST DE COMPARAISON DE DEUX
MOYENNES AVEC ECHANTILLONS
INDEPENDANTS
construction test 
test rejet
A
1er test 
Z = Ma-Mb / racine (siga^2/na + sigb^2/nb)
Z ~ N(0;1)
• Zone de rejet du test : | z | > 1,96
• Conditions de validité du test
– nA ≥ 30 et nB ≥ 30
18
Q
TEST DE COMPARAISON DE DEUX
MOYENNES AVEC ECHANTILLONS
INDEPENDANTS
construction test 
test puissance
A

La puissance est la probabilité de détecter que
les moyennes de A et B sont différentes si
elles le sont
• C’est la probabilité que |z| > 1,96 quand A et B
sont différents (mA ≠ mB)
• Soit delta = mA - mB
• La puissance dépend d’une hypothèse
alternative spécifique
– dépend de la valeur (non nulle) pour delta
- sd^2 = sA^2 / nA + sB^2 / nB
alors Z = (MA – MB)/ sd

Sous H1 : D ≠ 0
E(Z') = delta /sd 
Var(Z') = 1 
– calcul de la puissance pour différentes
valeurs de delta