Cours 9 : test t et estimation Flashcards

1
Q

Estimation

A

Meilleur estimé veut dire que l’erreur entre la “vraie” valeur et la statistique est minimisée (jamais exacte correspondance)
Le meilleur estimé de μ est la moyenne de l’échantillon

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Comment rendre l’estimation plus précise ?

A

En prenant en compte la

variabilité dans l’échantillonnage → estimation d’intervalle ou intervalle de confiance (synonymes)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Intervalle de confiance

A

Spécifie un intervalle de valeurs entre lesquelles la valeur réelle de μ inconnue serait comprise avec un niveau de certitude connu

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Trois faits mathématiques de l’intervalle de confiance (pourquoi ça marche)

A
  1. La moyenne de la distribution d’échantillonage est égale à la moyenne de la population (𝜇𝑋ത = 𝜇)
  2. L’erreur standard de la distribution d’échantillonage est égale à l’écart-type de la population divisé par la racine carrée de la taille de l’échantillon
  3. La forme de la distribution d’échantillonnage est connue
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Formule de l’intervalle de confiance

A

𝑋ത ± (𝑍𝑐𝑜𝑛𝑓)(𝜎𝑋ത )

𝜎𝑋ത : l’erreur type (écart type/racine carrée de N)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Niveau de confiance

A

La proportion ou pourcentage du temps que le paramètre inconnu en question (μ) sera compris à l’intérieur de l’intervalle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Pourquoi est-ce qu’on choisit 95 % par défaut pour l’intervalle de confiance ?

A

90% quand ne pas avoir d’intervalle précis pourrait avoir de sérieuses consequences.
99% quand un intervalle faux pourrait avoir de sérieuses consequences

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Taille optimale pour l’intervalle de confiance

A

La taille de l’échantillon utilisé

pour construire un intervalle de confiance ne peut jamais être trop grand

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Fourchette de valeurs entre lesquelles nos valeurs de Xbarre peuvent se retrouver

A

Si 𝑋ത n’est pas dans l’intervalle, on rejette l’hypothèse nulle
𝐼𝐶1−𝛼 = 𝜇 ± 𝑍𝛼/2 × 𝜎x

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Par quoi sont déterminées les bornes de l’intervalle de confiance ?

A

La valeur critique associée au seuil alpha choisi (Alpha plus petit élargit l’intervalle de confiance (et vice versa))
L’erreur type de la moyenne

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

William Gosset (1876-1937)

A

Il était employé à Guinness (la bière), et a travaillé dans le laboratoire de Karl Pearson
Concerné par le problème des petits échantillons en inference statistique à cause des considerations de contrôle qualité à Guinness
On lui reconnaît d’avoir développé la distribution de Student – t

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Distribution d’échantillonnage de t

A

La distribution obtenue si une
valeur de t était calculée pour chaque moyenne d’échantillonnage de tous les échantillons aléatoires possible d’une taille donnée tirés d’une
population;
Unimodale, symmétrique, et en
forme de cloche (comme
la distribution normale.) dès dl=4; extrémités plus larges

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Pourquoi les extrémités de la distribution t sont plus larges ?

A

À cause de la variabilité plus grande qui vient de l’estimation de σ par s;
Normale lorsque dl -> infini

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Notion de degrés de liberté

A

Quantité d’information (valeurs, scores, statistiques, etc.) qui est
“libre” de varier lorsque nous estimons un paramètre;
Chaque distribution-t est associée à un degré de liberté (df ou dl)
*Lorsque les n écarts autour de la moyenne sont utilisés pour
estimer la variance de la population, seulement n-1 sont libres de varier parce
que la somme des écarts doit être égale à zéro (restriction mathématique);
𝒅𝒇 = 𝒏 − 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Mode d’emploi du test t

A
  1. Déterminer direction de l’hypothèse.
  2. Déterminer niveau de confiance
  3. Regarder la bonne colonne
  4. Choisir le numéro → c’est le tcritique
    *Si notre dl n’est pas disponible, on prend la valeur correspondante au dl
    immédiatement inférieur
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Remarques sur le tcritique

A

La valeur de tcritique est plus variable que le zcritique;
Les statistiques observées (moyenne, écart-type habituellement) sont converties en statistique test, qui est en quelque sorte une valeur étalon de la distribution d’échantillonnage appropriée;
En fait, lorsqu’on teste des hypothèses ou construit des intervalles de confiance pour des moyennes de population, on doit utiliser le test t au lieu de z lorsque l’écart-type de la population (σ) est inconnu, ce qui est presque toujours le cas

17
Q

STATISTIQUE-t POUR LA MOYENNE D’UNE POPULATION (UN ÉCHANTILLON)

A

𝒕 = 𝒎𝒐𝒚𝒆𝒏𝒏𝒆 𝒅𝒆 𝒍 ′é𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏 −𝒎𝒐𝒚𝒆𝒏𝒏𝒆 𝒉𝒚𝒑𝒐𝒕𝒉é𝒕𝒊𝒒𝒖𝒆 𝒅𝒆 𝒍𝒂 𝒑𝒐𝒑𝒖𝒍𝒂𝒕𝒊𝒐𝒏 / 𝐞𝐫𝐫𝐞𝐮𝐫 𝐬𝐭𝐚𝐧𝐝𝐚𝐫𝐝 𝐞𝐬𝐭𝐢𝐦é (sxbarre)

18
Q

INTERVALLE DE CONFIANCE DE μ BASÉ SUR t

A

𝑿barre ± (𝒕𝒄𝒐𝒏𝒇 )(𝒔𝑿barre)

𝑡𝑐𝑜𝑛𝑓: valeur trouvée dans la table des valeurs critiques

19
Q

Deux échantillons

indépendants

A

Test statistique fréquemment
utilisé pour comparer un groupe contrôle avec un groupe de traitement;
Permet de tirer des conclusions claires à propos d’une
relation cause à effet;
On se questionne si les statistiques des deux échantillons sont
suffisamment différentes pour conclure qu’ile proviennent de deux populations différentes (rejeter l’hypothèse nulle)

20
Q

Effet du test t avec deux échantillons indépendants

A

difference entre les paramètres (μ) de deux populations (μ1 et μ2) différentes
𝜎𝑋ത1−𝑋ത2 = racine carrée (𝜎1
à la deux / 𝑛1 + 𝜎2à la deux/𝑛2

21
Q

Interprétation du test t avec deux échantillons indépendants

A

𝜎𝑋ത1−𝑋ത2
est une mesure de la différence moyenne des
différences entre les moyennes de deux échantillons aléatoires et la
différence moyenne entre deux populations

22
Q

STATISTIQUE-t POUR DEUX MOYENNES DE POPULATION (DEUX ÉCHANTILLONS INDÉPENDANTS)

A

𝒕 = 𝒅𝒊𝒇𝒇 𝒆𝒏𝒕𝒓𝒆 𝒍𝒆𝒔 𝒎𝒐𝒚𝒆𝒏𝒏𝒆𝒔 𝒅′é𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏 −(𝒅𝒊𝒇𝒇 𝒉𝒚𝒑𝒐𝒕𝒉é𝒕𝒊𝒒𝒖𝒆 𝒆𝒏𝒕𝒓𝒆 𝒍𝒆𝒔 𝒎𝒐𝒚𝒆𝒏𝒏𝒆𝒔 𝒅𝒆 𝒍𝒂 𝒑𝒐𝒑𝒖𝒍𝒂𝒕𝒊𝒐𝒏) /𝐞𝐫𝐫𝐞𝐮𝐫 𝐬𝐭𝐚𝐧𝐝𝐚𝐫𝐝 𝐞𝐬𝐭𝐢𝐦é
DEGRÉS DE LIBERTÉ (DEUX ÉCHANTILLONS)
𝒅𝒇 = 𝒏𝟏 + 𝒏𝟐 − 2

23
Q

Test t: p-value

A

Probabilité d’obtenir le résultat observé, si on présume que
l’hypothèse nulle est vraie;
Le plus la p-value est petite, le plus H0 est suspecte;
probabilité qui correspond à la zone grise dans le schéma précédent (ou la zone grise totale des deux côtés si
bilatérale)

24
Q

Comment approximer le p-value

A

Il faut savoir trois informations (Directionalité de l’hypothèse, Degrés de liberté, t obs)
On trouve la rangée du dl dans le tableau de directionnalité de
l’hypothèse correspondant;
On assigne le p-value correspondant

25
Q

Problème du p value

A

Peut poser problème quand les résultats sont limite (exemple: p = 0.06): pas de balises pour decider
De plus, les concepts d’erreur de type I et type II sont moins clairs avec cette approche

26
Q

α vs p-value

A

Spécifié avant avoir observé la statistique test, le niveau de signification α déterminé le degré de rareté requis à notre statistique test afin qu’on
rejette H0;
Déterminée après avoir observé la statistique test, le p-value détermine le degré de rareté de notre statistique, si l’hypothèse nulle est conservée

27
Q

INTERVALLE DE CONFIANCE DE μ1 - μ2 BASÉ SUR t (deux échantillons indépendants)

A

(𝑿barrie𝟏−𝑿barre2) ± (𝒕𝒄𝒐𝒏𝒇 )(𝒔𝑿barre𝟏−𝑿barre2)

28
Q

TAILLE D’EFFET STANDARDISÉE, d DE COHEN (DEUX ÉCHANTILLONS

INDÉPENDANTS)

A

𝒅 = 𝒅𝒊𝒇𝒇é𝒓𝒆𝒏𝒄𝒆 𝒎𝒐𝒚𝒆𝒏𝒏𝒆 /

é𝒄𝒂𝒓𝒕 𝒕𝒚𝒑𝒆

29
Q

Avantages de la taille d’effet en comparaison avec l’estimation

A

Point de référence stable qui n’est pas influencé par la taille de l’échantillon, ce qui permet de comparer des effets adéquatement lorsque la taille de l’échantillon est très différente;
Unités s’annulent – standardise, sans unités

30
Q

Présuppositions – test t deux

échantillons indépendants

A

t presuppose que les populations sous-jacentes sont

normalement distribuées avec variances égales

31
Q

Si on observe un non-respect flagrant de la normalité et de l’égalité des variances pour les données des deux groupes, considérer (pour test t deux échantillons indépendants)

A
  1. Augmenter la taille de l’échantillon (réduit impact d’anormalité)
  2. Échantillons de taille égale pour minimiser l’impact de variances inégales (variance inégale va surestimer l’erreur-type)
  3. Utiliser un test t moins sensible et plus complexe pour les variances inégales (on ne voit pas dans ce cours.)
  4. Utiliser un test statistique non-paramétrique et moins sensible tel que Mann-Whitney U test.