Cours 2 stat Flashcards
Réalisation d’un test statistique : formulation des hypothèses 1
Les hypothèses d’un test statistique sont au nombre de deux :
• L’hypothèse nulle, notée 𝐻0 : est celle que l’on souhaite rejeter
• L’hypothèse alternative, notée 𝐻1
Ces hypothèses doivent couvrir toutes les possibilités et ne pas pouvoir être vraies simultanément :
• soit l’une est vraie, soit c’est l’autre, mais pas les deux.
Ces hypothèses portent sur les paramètres (valeurs théoriques) de lois de probabilité
• Pas d’hypothèse sur des valeurs observées (pour lesquelles une décision serait facile !!)
• Mais sur des valeurs théoriques inconnues
possibilité pour l’hypothese nul
En général, l’hypothèse nulle fait intervenir une égalité (hypothèse simple)
• Exemple : 𝜋 = 𝜋0, 𝜇𝐴 = 𝜇𝐵
• L’égalité permettra de déterminer la loi de la statistique de test sous l’hypothèse nulle et de
construire une zone de rejet
Autre possibilité pour une hypothèse nulle : l’indépendance entre deux variables aléatoires binaires
ou catégorielles
• Exemple : si 𝜋𝐴 désigne le risque de complication avec un traitement A (et 𝜋𝐵 avec le traitement
B), alors 𝜋𝐴= 𝜋𝐵 est équivalent à l’indépendance entre la variable « complication » et la variable
« traitement »
En général, l’hypothèse alternative est moins précise (on parle d’hypothèse composite)
• Exemple : 𝜋 ≠ 𝜋0, 𝜇𝐴 ≠ 𝜇𝐵
• Pour déterminer la loi de la statistique de test sous l’hypothèse alternative, il faudra le plus
souvent faire des hypothèses supplémentaires (cf calcul de puissance plus tard)
construction de la statistique de test
A partir de l’observation d’un 𝑛-échantillon, on souhaite construire une statistique (= fonction des
observations), dont la loi sous l’hypothèse nulle est connue et simple
En pratique, la loi en question sera très souvent :
• La loi 𝑁(0,1)
• Une loi du 𝜒² à 𝑘 degrés de libertés, 𝑘 étant fixé par les conditions de l’expérience
Cela nécessitera souvent l’application du TCL, donc des conditions de validités à vérifier
• Rappel : 𝑛 ≥ 30 ou 𝑛𝜋 ≥ 5 et 𝑛(1 − 𝜋) ≥ 5
construction de la statistique de test 2
zone rejet
La connaissance de la loi sous 𝑯𝟎 de la statistique de test permet de définir une zone de rejet.
On se donne 𝛼 ∈ [0,1], appelé « risque de première espèce » ou « erreur de type 1 » ou « risque
alpha »
• Habituellement, 𝛼=5% dans la recherche biomédicale
• Mais rien n’interdit de choisir une autre valeur dans un exercice…
On choisit la zone de rejet de sorte que sa probabilité sous 𝑯𝟎 soit égale à 𝛼. Son complémentaire est
donc un intervalle de pari de niveau 1 − 𝛼
On décide de rejeter l’hypothèse nulle si la réalisation de la statistique de test est dans la zone de
rejet.
erreur de type II et puissance
On suppose maintenant que c’est l’hypothèse alternative 𝐻1 qui est vraie.
La probabilité que la statistique de test tombe dans la zone de rejet (et donc que l’hypothèse nulle soit
rejetée) s’appelle puissance et se note 1 − 𝛽
• On souhaite que cette quantité soit la plus grande possible !
La probabilité complémentaire se note 𝛽 et s’appelle « risque de deuxième espèce », « risque bêta »
ou « erreur de type II ».
• C’est la probabilité de ne pas rejeter de l’hypothèse nulle alors qu’elle était fausse
• On la souhaite la plus petite possible !
puissance augmente si
– augmenter la taille de l’échantillon
– changer H1
conclusion d’un test statistique
Un test statistique peut avoir uniquement deux conclusions :
Si la statistique observée tombe dans la zone de rejet pour 𝛼 = 5%, alors la conclusion est :
• On rejette l’hypothèse nulle au risque 5%
Cela ne signifie pas que l’hypothèse nulle est fausse car on a pu commettre une erreur de type I
Si la statistique observée tombe en dehors de la zone de rejet pour 𝛼 = 5%, alors la conclusion est :
• On ne peut pas rejeter l’hypothèse nulle au risque 5%
Cela ne signifie pas que l’hypothèse nulle est vraie car on a pu commettre une erreur de type II
En particulier, on « n’accepte » jamais l’hypothèse nulle car le test est fait pour la rejeter, et qu’il a pu
manquer de puissance.
Ne pas parvenir à prouver qu’un traitement est efficace, ce n’est pas la même chose que prouver qu’il
est inefficace
degres de signification
En cas de rejet de l’hypothèse nulle (et seulement dans ce cas), on peut s’intéresser au risque alpha
le plus petit que l’on aurait pu prendre tout en continuant à rejeter 𝐻0
• Rappel : la puissance diminue lorsque 𝛼 diminue
• En baissant 𝛼, on va donc finir par ne plus rejeter 𝐻0
Cette valeur se note 𝑝 et s’appelle degré de signification. Plus il est petit, et plus les observations
sont extrêmes, si l’on fait l’hypothèse que 𝐻0 est vraie.
Le degré de signification est donc calculé a posteriori
en cas de rejet de 𝐻0. Il est nécessairement plus petit que
le risque alpha.
Pour le déterminer, on lit les tables « à l’envers » :
On part de la statistique observée Z et on remonte
au niveau 𝛼
• Cela fournit le plus souvent un encadrement de 𝑝
test parametrique
– utilise la loi de distribution de la statistique
étudiée
• loi normale de la proportion ou de la moyenne
observée
– suppose que les conditions de validité du
théorème central limite sont vérifiées
• implique « grand(s) » échantillons
conclu risque associe a un test
• a : risque de première espèce (erreur de type I)
– P(rejet H0 / H0 vraie)
• b : risque de deuxième espèce (erreur de type II)
ou manque de puissance
– P(non rejet H0 / H0 fausse)
– 1 - b : puissance du test
si non rejet Ho
– ou H0 est vraie
– ou H0 est fausse mais on n’a pas pu le mettre en
évidence
• erreur de deuxième espèce (b)
• manque de puissance : effectifs trop faibles ?
– le risque de deuxième espèce n’est pas contrôlé
on ne peut pas « accepter » H0
les observations sont « compatibles » avec H0
si rejet Ho
– ou H0 est vraie et on a observé un échantillon peu
probable (risque de premier espèce « limité » à 5 %)
– ou H0 est fausse
TEST DE COMPARAISON D’UNE
MOYENNE A UNE NORME
base
• Test de comparaison d’une moyenne observée
à une moyenne théorique ou « norme »
• On s’intéresse à une variable X continue
• On observe, à partir d’un échantillon de n
valeurs xi, une moyenne expérimentale m
• X a une moyenne théorique m = E(X)
• Hypothèses :
– H0 : m = m0
– H1 : m m0
• Grand échantillon : n 30
TEST DE COMPARAISON D’UNE
MOYENNE A UNE NORME
Construction du test
• Conditions de validité – n 30 • Sous H0 : m = m0 – donc M ~ N(m0 ;s2 /n) – on estime s2 par s2 • Soit Z = M-uo / racine (s^2/n) Z suit une loi normale car M suit une loi normale
TEST DE COMPARAISON D’UNE
MOYENNE A UNE NORME
puissance du test
Calcul de puissance
on va mettre un u qui n’est pas egal a uo
P(rejet H0 / H1 vraie )= P ( | Z ’| > 1,96 / u = u1)
• Z’ = M -uo / racine (s^2/n)
Z’ ~ N(u-uo ; 1)