Cours 3 : Révision statistique (corrélation/régression) Flashcards
Est-ce qu’une corrélation et une régression simple permettent d’arriver au même résultat?
OUI (coefficient de corrélation et beta standardisé de régression = même chose)
Pourquoi parle-t-on de régression et de corrélation si les deux arrivent au même résultat?
Pcq la régression multiple existe (utile lorsqu’on veut prédire le cpt à partir de plusieurs tests). On s’en sert bcp dans la validité.
Que veut dire bivariée?
On travaille avec 2 variables
La corrélation peut prendre quelles valeurs?
De -1 à +1
Nomme les 3 barèmes de la corrélation.
r = 0.5 (forte, 25% de la variance)
r = 0.3 (modéré, 9% de la variance)
r = 0.1 (faible, 1% de la variance)
À quoi sert le r au carré?
Il sert à expliquer le pourcentage de variance de la VD qui est expliqué par la VI.
Quand on explique un faible % de variance, comment devrait-on agir face à nos prédictions?
On devrait être très prudent.
V ou F : N’importe quel test statistique peut être transformé en coefficient r.
VRAI (ex : test t peut être transformé en coefficient r)
Quel est l’impact de faire un test one-tailed sur la corrélation?
Peut permettre de rendre le test plus significatif
Quel est l’impact d’augmenter l’échantillon dans une corrélation?
Le degré de signification va augmenter.
La corrélation est-elle affectée par les unités de mesure?
NON
Que veut dire Y’ dans la régression?
Y prédit = ce qui serait supposé d’arriver
Peut-il y avoir de l’erreur par rapport à Y’?
Oui, sauf si la corrélation est parfaite (tous les points seraient sur la droite)
Donne un exemple d’erreur avec Y’.
Quand x = 10, je prédis que y = 30, mais tu as 33 (donc y réel = 33 = erreur de 3)
Quel est le lien entre Y’ et la courbe normale?
Quand on prédit Y, on ne le prédit jamais parfaitement = erreur.
Cette erreur-là est normalement distribuée. (la plupart des erreurs sont près de la moyenne et les extrêmes sont bcp plus rares)
En quoi consiste la relation curvilinéaire?
On pourrait tracer une meilleure droite de régression si elle faisait une courbe.
Quel est l’impact de la relation curvilinéaire sur le r?
Vient l’affaiblir un peu négativement.
Comment est l’erreur de prédiction dans l’hétéroscedasticité?
L’erreur de prédiction n’est pas constante à travers les différents niveaux de X (à de faible niveau = très peu de distance entre les pts et la droite VS à de haut niveau = plus de distance entre les pts et la droite)
Donc, si j’essaie de prédire Y, je peux le prédire quasi parfaitement à certains niveaux et bcp moins bien à d’autres niveaux.
Comment est-ce qu’on veut notre relation en lien avec le r?
On veut que ça soit linéaire et on veut un groupe hétorogène.
Que cause les groupes homogènes?
La restriction de la variance
En quoi consiste la restriction de la variance?
Quand on a pas bcp de variance dans notre échantillon = affecte le r.
Donne un exemple de restriction sur la variance.
Tous les gens à l’uni = il y a eu une certaine préselection, tout le monde a à peu près le même QI.
Donc, il y a une très petite corrélation alors que ce n’est pas vrai qu’il n’y a pas d’association entre réussite à l’école et QI.
Que se passe-t-il avec le r lorsque l’échantillon est restreint?
Le r est faible = puissance est faible.
c’est donc mieux de prendre un échantillon avec plus de variance.
Est-ce que si tu as un échantillon diversifié, tu as plus de variance?
NON.
EX : Pour qui dans la classe les notes ne sont pas si importantes? Tout le monde aura à peu près la même réponse même si notre échantillon est diversifié (hommes, femmes, vieux, jeunes, etc.)