Cours 9 : test t et estimation Flashcards
Estimation
Meilleur estimé veut dire que l’erreur entre la “vraie” valeur et la statistique est minimisée (jamais exacte correspondance)
Le meilleur estimé de μ est la moyenne de l’échantillon
Comment rendre l’estimation plus précise ?
En prenant en compte la
variabilité dans l’échantillonnage → estimation d’intervalle ou intervalle de confiance (synonymes)
Intervalle de confiance
Spécifie un intervalle de valeurs entre lesquelles la valeur réelle de μ inconnue serait comprise avec un niveau de certitude connu
Trois faits mathématiques de l’intervalle de confiance (pourquoi ça marche)
- La moyenne de la distribution d’échantillonage est égale à la moyenne de la population (𝜇𝑋ത = 𝜇)
- L’erreur standard de la distribution d’échantillonage est égale à l’écart-type de la population divisé par la racine carrée de la taille de l’échantillon
- La forme de la distribution d’échantillonnage est connue
Formule de l’intervalle de confiance
𝑋ത ± (𝑍𝑐𝑜𝑛𝑓)(𝜎𝑋ത )
𝜎𝑋ത : l’erreur type (écart type/racine carrée de N)
Niveau de confiance
La proportion ou pourcentage du temps que le paramètre inconnu en question (μ) sera compris à l’intérieur de l’intervalle
Pourquoi est-ce qu’on choisit 95 % par défaut pour l’intervalle de confiance ?
90% quand ne pas avoir d’intervalle précis pourrait avoir de sérieuses consequences.
99% quand un intervalle faux pourrait avoir de sérieuses consequences
Taille optimale pour l’intervalle de confiance
La taille de l’échantillon utilisé
pour construire un intervalle de confiance ne peut jamais être trop grand
Fourchette de valeurs entre lesquelles nos valeurs de Xbarre peuvent se retrouver
Si 𝑋ത n’est pas dans l’intervalle, on rejette l’hypothèse nulle
𝐼𝐶1−𝛼 = 𝜇 ± 𝑍𝛼/2 × 𝜎x
Par quoi sont déterminées les bornes de l’intervalle de confiance ?
La valeur critique associée au seuil alpha choisi (Alpha plus petit élargit l’intervalle de confiance (et vice versa))
L’erreur type de la moyenne
William Gosset (1876-1937)
Il était employé à Guinness (la bière), et a travaillé dans le laboratoire de Karl Pearson
Concerné par le problème des petits échantillons en inference statistique à cause des considerations de contrôle qualité à Guinness
On lui reconnaît d’avoir développé la distribution de Student – t
Distribution d’échantillonnage de t
La distribution obtenue si une
valeur de t était calculée pour chaque moyenne d’échantillonnage de tous les échantillons aléatoires possible d’une taille donnée tirés d’une
population;
Unimodale, symmétrique, et en
forme de cloche (comme
la distribution normale.) dès dl=4; extrémités plus larges
Pourquoi les extrémités de la distribution t sont plus larges ?
À cause de la variabilité plus grande qui vient de l’estimation de σ par s;
Normale lorsque dl -> infini
Notion de degrés de liberté
Quantité d’information (valeurs, scores, statistiques, etc.) qui est
“libre” de varier lorsque nous estimons un paramètre;
Chaque distribution-t est associée à un degré de liberté (df ou dl)
*Lorsque les n écarts autour de la moyenne sont utilisés pour
estimer la variance de la population, seulement n-1 sont libres de varier parce
que la somme des écarts doit être égale à zéro (restriction mathématique);
𝒅𝒇 = 𝒏 − 1
Mode d’emploi du test t
- Déterminer direction de l’hypothèse.
- Déterminer niveau de confiance
- Regarder la bonne colonne
- Choisir le numéro → c’est le tcritique
*Si notre dl n’est pas disponible, on prend la valeur correspondante au dl
immédiatement inférieur