Estimation des paramètres Flashcards
Qu’est-ce que la moyenne permet de calculer?
-À partir de mesures cardinales
-À partir de variables nominales à 2 catégories
EX: statut de séropositivté ou vivre sous le seuil de la pauvreté
Quelles sont les 2 façons de faire de l’inférence?
-Intervalle de confiance
-Test d’hypothèse
Qu’est-ce qu’un intervalle de confiance?
-Correspond à une gamme de valeurs dans laquelle devrait se trouver le paramètre de la population.
-On identifie les bornes que représentent les valeurs probables de la moyenne de la population autour de la moyenne estimée par l’échantillon.
-Bornes = valeurs au-dessus et en-dessous de la moyenne de l’échantillon. Aussi appelées limites de confiance. Calculées à partir de la moyenne de l’échantillonnage et son écart-type.
→Bornes inférieure: IC =𝑥̅ -Z (ETm)
→Borne supérieure: IC =𝑥̅ +Z (ETm)
⇒Niveau de certitude souhaité, choix du scientifique: 90%, 95% (1,96 d’écart-type), 99%
Quelles sont les situations qui nous permettent de statuer d’une différence avec une IC ou non? (2) et celle qui le permet pas?
→Des 3 situations: seulement les 2 premières permettent de statuer sur la présence ou absence de différence
1.Les IC ne se chevauchent pas: il est fort probable qu’il y ait une différence
2.La moyenne de chacun des groupes est incluse dans l’IC de l’autre groupe: il est fort probable qu’il n’y ait PAS de différence
3.Les IC se chevauchent mais la moyenne d’un groupe n’est pas incluse dans l’IC de l’autre groupe: impossible de conclure → il faut faire un test d’hypothèse.
Qu’est-ce qu’un test d’hypothèse?
-‘’Procédé employé en inférence statistique qui permet de faire un choix, non sans risque de se tromper, entre eux hypothèses contraires sur la base d’une ou de plusieurs échantillons aléatoire’’(fortin)
→hypothèse nulle (H0) : présume de l’absence d’effet d’un facteur, de relation entre les variables (ex. différence observée = effet du hasard et non du facteur à l’étude)
-Parce que la démarche statistique porte sur l’hypothèse nulle (H0), l’hypothèse de recherche (H1) est appelée hypothèse alternative (aussi hypothèse rivale ou contre-hypothèse). C’est seulement l’hypothèse nulle qui fait l’objet d’une vérification statistique.
-Un test d’hypothèse utilise les probabilités différemment ≈ renverse la logique →risque d’erreur au lieu de niveau de confiance
-Ex.: Au lieu de dire « Je suis certaine à 95% que… », la chercheure dira plutôt « j’ai 5% de chances de me tromper ».
Quels sont les types d’erreurs dans le test d’hypothèse?
- Erreur de type I (ou 1ere espèce) : probabilité de rejeter H0 alors qu’elle est vraie en réalité (notée α).
-Liée au hasard: variabilité inhérente à l’échantillonnage
→Seuil (alpha) comparé à la valeur p du test → qu’on détermine (ex: 5%, = 0,05)
-Seuil de signification ou (alpha) = la probabilité (p) de rejeter l’hypothèse nulle alors qu’elle est vraie. Détermine le niveau de risque qu’on est prêt à tolérer en rejetant erronément l’hypothèse nulle.
-Valeur p: probabilité qu’une différence soit attribuable au hasard. Probabilité que Ho soit vraie. → Valeur P est calculée par un logiciel
⇒Le risque de commettre cette erreur s’appelle alpha - Erreur de type II (ou 2e espèce) : probabilité d’accepter H0 alors qu’elle est fausse en réalité (notée β).
-Liée à la puissance statistique (1-) de l’étude → capacité à prendre une décision statistique (à détecter une différence réelle) et rejeter correctement l’hypothèse nulle.
+la puisse statistique est élevée, - il y a de risque de commettre une erreur de type II.
Quels sont les 3 tests d’hypothèse?
1-Test Z (1 échantillon, pour + que n =30)
2-Test t: 1 échantillon, 2 échantillons indépendants ou appariés = différence entre les moyennes de 2 groupe relativement à une variable aléatoire continue.
3-Anova: plusieurs échantillons (2+)
Qu’est-ce que le test Z?
-Test d’hypothèse qui utilise la valeur Z pour associer une probabilité à une condition décrite par l’hypothèse nulle.
-On rejette Ho quand la valeur de p est inférieure au seuil (alpha)
-La valeur p du test nous renseigne sur la probabilité que H0 soit vraie (c.-à-d. que l’écart entre les deux moyennes soit l’effet du hasard et qu’en réalité, les deux moyennes soient égales). → inférieure au niveau de signification (α=0,05) → rejet de H0
-Valeur critique: est la valeur tirée d’une table statistique, qui délimite les zones de rejet et de non-rejet de l’hypothèse nulle.
⇒ Une autre façon de faire le test aurait été de trouver la valeur Z correspondante au niveau de signification (α=0,05), soit 1,64 → Z calculé > Z critique (1,73 > 1,64)= rejet de H0
→µ > A Unilatéral à droite : zone de rejet est située à l’extrémité droite de la courbe normale centrée réduite
→µ < A Unilatéral à gauche
⇒ Les deux sont normalement employés pour des hypothèses directionnelles.
→µ ≠ A Bilatéral: Si impossible de prédire une direction pour H1 (donc seuil alpha divisée de chaque côté, ex: seuil 5% = 2,5% de chaque côté)
Qu’est-ce que le test t?
-Test paramétrique qui sert à déterminer la différence entre les moyennes (mesures continues) de deux populations relativement à une variable aléatoire continue.
-Utilisé pour 1 échantillon quand en bas de 30 (n). Peut-être +, mais en bas de 30 Z ≠ fiable DONC on utilise T.
-On utilise aussi une table pour associer une valeur X avec une probabilité.
-Les degrés de libertés (DL) sont utilisés pour lire la table (habituellement n-1)
→1 échantillon: Le test se fait de la même manière qu’un test Z t = x - s/n
→2 échantillons indépendants:
Sert à vérifier si le fait d’appartenir au groupe expérimental plutôt qu’au groupe de contrôle a une influence sur la variable continue, c’est-à-dire sur la variable dépendante.
→2 échantillons appariés:
Quand on veut étudier le comportement d’une variable continue qui a été évaluée à deux occasions auprès d’un même groupe de personnes.
où covx1x2 = covariance des deux → échantillons décrit la relation entre les deux distributions
-Si la valeur t calculée est + grande que la valeur critique, l’hypothèse nulle est rejetée, et la différence entre les moyennes des valeurs de chacun des deux groupes est considérée comme significative du point de vue statistique.
Quand est-ce que t tend à augmenter?
Ainsi, t tend à augmenter lorsque
* la différence entre les moyennes augmente
* la variance diminue
* la taille des échantillons augmente
Test Anova?
Sert à déterminer les différences entre 2 groupes ou + en comparant la variation au sein de chaque groupe (intragroupe) avec celle qui existe entre les groupes (intergroupes).
-Anova peut inclure un facteur ou +. Un facteur = variable dont on cherche à connaître les effets sur une variable donnée.
-ANalysis Of Variance : permet de comparer plus de 2 groupes
-La comparaison des groupes est faite en comparant les variances inter-groupes et intra-groupes
-La statistique calculée s’exprime en valeur F.
-Degrés de liberté
* dl inter = nb de groupes - 1
* dl intra = nb total d’observation - nb de groupes
F ↗ quand variance inter-groupe > variance intra-groupe * donc, plus les groupes seront différents entre eux, plus F ↗
Hypothèses:
* H0 : µ1 = µ2 = µ3 = µ4
* H1 : un des groupes est différent
Rejet de H0 : F calculé > F critique
Qu’est-ce qu’une mesure d’association?
-Association = Covariation entre 2 variables → si le devis de recherche le permet, servira à inférer sur l’existence d’une relation causale.
-La probabilité d’observer une valeur sur X est liée à la probabilité d’observer une valeur sur Y.
-Les types de devis permettent de voir s’il y a antécédence.
▻ Corrélation:
-Les coefficients de corrélation sont utilisés pour décrire quantitativement la force et la direction d’une relation entre 2 variables. Soit par coefficient de Pearson ou Spearman.
Quels sont les 3 test de corrélation?
-Coefficient de Pearson (variables cardinales continues)
-Coefficient de détermination
-Khi 2 (2 variables catégorielles)
Qu’est-ce que le coefficient de Pearson (r)?
→Coefficient de Pearson (r) : Variables cardinales (continues) est la mesure la + courante →pas possible de porter un jugement causale → mais avec devis oui
-Dans la corrélation de Pearson, la relation est normalement linéaire, c’est-à-dire que les scores de chaque participant sont distribués dans un graphique et tendent à former une ligne qui passe ds le nuage de points.
-Nuage de points (aussi appelé diagramme de dispersion): relations entre 2 variables cardinales
-R= décrit la force d’association entre 2 variables → + il est haut, + l’association est forte)
-R positif: l’augmentation des valeurs sur une variable s’accompagne d’une augmentation de valeurs sur l’autre variable (association +)
-R négatif: l’augmentation des valeurs sur une variable s’accompagne d’une diminution des valeurs sur l’autre variable (association -)
-R: 1 ou -1 = corrélation parfaite → donc r = 0,7 ou r = -0,7 représentent association aussi forte.
-La corrélation parfaite = rare à observer en sciences humaines, car phénomènes trop complexes.
-Valeur P = que Ho soit vraie donc probabilité que Ho soit vraie = 0,003 (p) → si bas qu’on rejete (cela peut être dû au hasard)
⇒ On doit se fier à P et r → d’abord P: est-ce dû au hasard? si non → on regarde R qui nous indique la force.
Qu’est-ce que le coefficient de détermination (r2)?
-Coefficient de pearson (r ) au carré.
-Indique la proportion de la variance d’une variable qui est expliquée par l’autre variable.
-La proportion de la variance en %
-Ex: 20% de la variance de l’adhésion au mythe sexuel s’explique par la variation % du conservatisme sexuel et vise versa donc aussi 20% du conservatisme qui s’explique par la virance au mythe.
-Pas possible de déterminer le sens de la relation → seul le devis permet d’établir le sens de la relation
-L’association ≠ causalité
-Ex:La consommation hebdomadaire de crème glacée est corrélée aux noyades…