Cours 4 : Normalité & biais Flashcards
L’ordonnée à l’origine
La valeur de y lorsque x est à 0
Aussi appelée la constante
Biais de la pente
On parle d’un biais lorsqu’une prédiction comporte une erreur de prédiction en fonction d’un groupe ; biais de la pente
Vrai ou faux : Un biais n’est pas un synonyme de différence
Vrai.
on parle biais si la pente est différente pour deux groupes en raison d’une inéquité dans le fonctionnement du test et non en raison d’une véritable différence entre les populations à l’étude.
Ex: Si je passe un test auprès des déliquants qui confirme qu’ils sont plus agressifs que la population non incacérée, la différence ici n’est pas un biais envers les délinquants.
La présence d’un biais ____ les intervalles de confiance.
Élargie les intervalles de confiance
Les données extrêmes affectent (biais) :
A) les intervalles de confiance
B) l’erreur
C) Seuil de signification
D) Toutes ces réponses
D)
Intervalles de confiance : Reflète notre précision d’estimation. (données extrêmes affectent la précisions)
L’erreur : Biais ajoute de l’erreur. (SST)
Seuil de signification : Plus les intervalles de confiance sont larges, plus il est difficile de détecter une différence significative entre les groupes.
Dans un biais de la pente je prédit ( ) un groupe de l’autre
différemment.
Ainsi, l’erreur est différente pour un groupe.
Dans le biais de la pente, est-ce que la droite de régression est la même?
Non! la droite de régression ne sera pas la même car je ne prédit pas de la même façon chaque groupe.
La pente est différente pour les 2 groupes.
Que dit le théorème de la limite centrale
Si n > 30, la distribution d’échantillonnage des moyenne est normale et même si la distribution de la population n’est pas normale.
Dans tous les échantillons possibles, j’ai plus de chance de tomber sur un échantillon typique plutôt qu’atypique
Qu’est-ce que la distribution d’échantillon?
C’est la distribution de tous les échantillons possibles que je peux retirer d’une populations.
Cette distribution sera symétrique et normale, souvant égale à la moyenne de la population dans la vaste majorité des cas
Vrai ou faux : La distribution d’échantillonnage est équivalente à l’échantillon ?
FAUX, ce n’est pas notre échantillon
Précision : La distribution d’échantillonnage représente toutes les possibilités d’échantillons possibles à partir des données de notre population. L’échantillon est une des possibilités que l’on retire de la distribution des échantillons.
Vrai ou faux : L’écart-type de la distribution d’échantillonnage est le même que l’écart-type de la population/ n.
Vrai
Vrai ou faux : Il est possible d’obtenir une distribution d’échantillonnage respectant la normalité même si la population est clairement non normale avec un n suffisant
Vrai
Que signifie l’hétérogénéité de la variance?
Cas dans lequel les variances entre le groupe témoin et le groupe expérimental ne sont pas égales ou constantes à travers les différents niveaux de la variable.
Ainsi, pour ne pas avoir de biais on souhaite avoir une ( ) de la variance entre le groupe témoin et le groupe expérimental
homogénéité de la variance
Homogénéité
L’erreur doit demeurer constante à travers les différents prédicteurs
Quel test permet de tester si les variances entre les groupes sont les mêmes?
Le test de Levene.
Test de KS ou Shapiro
Qu’est-ce qu’un résultat significatif veut dire ?
Test qui détermine si la distribution est normale ou non. (teste la normalité)
Un résultat significatif (p < 0.05) indique que la distribution n’est pas normale, donc que la normalité n’est pas respectée.
Si j’ai un grand échantillon, est-il nécessaire de faire un test de Shapiro ?
Non, car plus mon échantillon est grand plus je me rapproche de la distribution normale (théorème de la limite centrale)
Vrai ou faux : La taille de l’échantillon affectera le résultat significatif du test de normalité
Vrai, plus l’échantillon est grand, moins le résultat est significatif (c’est ce que l’on souhaite à ce test)
Si nos participants proviennent de la même population, et qu’ils ne varient pas de façon égale, on parle de… (3 termes)
- Hétérogénéité
- inégalité des variances
- Hétéroscédasticité
Test de levene
Qu’est-ce qu’un résultat significatif veut dire ?
Teste l’homogénéité des variances donc savoir si les variances des différents groupes sont les mêmes.
Un test significatif (p < 0.05) indique que les variances ne sont pas homogènes, donc elles sont hétérogènes.
Au test de Levene on veut un résultat ( ) donc p…
Non significatif, donc p plus grand que 0,05
Lorsque l’ÉT est le même pour le groupe 1 et 2, quel est le sig du test de levene?
1,00 !
100% variances sont homogènes!
Vrai ou faux : La taille de l’échantillon affectera le résultat significatif du test d’homogénéité des variances
Vrai, plus l’échantillon est grand, moins le résultat est significatif, donc plus je retrouve de l’homogénéité de la variance
Test de normalité
Si j’ai un résultat de z = 4.68, dans mon asymétrie je peux dire que :
A) Mon test est statistiquement significatif à p < 0.05
B) Mon test n’est pas statistiquement significatif à p > 0.05
C) Mon test est statistiquement significatif à p < 0.01
D) Mon test est statistiquement significatif à p > 0.05
E) Mon test est statistiquement significatif à p > 0.01
C) mon test est statistiquement significatif à p < 0.01 ( plus de 2.58, donc significatif à 0.05 mais en plus à 0.01), donc que mon échantillon ne respecte pas la normalité.
Quel type de transformation permet de réduire l’asymétrie positive ?
A) Transformation Inverse
B) Transformation Log
C) Transformation racine carré
D) Toutes ces réponses
E) Aucune de ces réponses
B) Transformation Log
C) Transformation racine carré
Quel type de transformation permet de réduire l’impact de grands scores ?
A) Transformation Inverse
B) Transformation Log
C) Transformation racine carré
D) Toutes ces réponses
E) Aucune de ces réponses
A) Transformation Inverse
Vrai ou faux : Transformer les données modifie également l’hypothèse testée ?
Vrai : on passe à une comparaison de moyennes arithmétiques à des moyennes géométriques
Vrai ou faux : les conséquences pour le modèle statistique d’appliquer la “mauvaise” transformation, pourrait être pire que les conséquences de l’analyse des scores non transformés
Vrai !