Chapitre 7 : La régression linéaire simple Flashcards
Qu’est-ce que la régression linéaire simple?
La régression prédit la position probable d’une personne sur la variable y à partir de sa position connue sur la variable x. Le degré de précision de cette estimation dépend de la taille de la Rxy connue.
Pourquoi est-ce la régression est une meilleure estimation que la moyenne lorsque possible?
La psychologie s’intéresse aux différences individuelles, une estimation basée sur la moyenne est moins précise/utile.
Le but de la régression est d’utiliser la relation générale (Rxy) pour faire une prédiction individualisée et plus précise que celle faite par la moyenne.
Qu’est-ce qui permet une meilleure précision de la prédiction de la régression?
La précision de la régression s’améliore au fur et à mesure que Rxy augmente
Qu’est-ce que la régression simple standardisée?
- La régression standardisée se sert de la position en score-z de x afin d’estimer sa position en score-z sur y
- La régression simple standardisée sert à faire des prédictions plus théoriques (conclusions générales par rapport à une population), ce qu’on pourrait voir dans une revue scientifique
Qu’est-ce que la droite de régression?
- Elle représente la tendance des coordonnées xy
- Pour une régression standardisée, la droite passe toujours par 0 (ordonnée à l’origine)
- Pour une régression non standardisée, la droite ne passe pas par 0 (c’est possible, mais très rare)
- La force de prédiction est illustrée par la droite
Comment doit-on positionner la droite de régression?
- La droite est correctement positionnée lorsqu’elle représente le mieux la distribution des coordonnées
- La moyenne étant le meilleur estimé des coordonnées, la droite est bien positionnée lorsqu’elle se trouve à la moyenne du nuage de points
- Ainsi, il va avoir autant de points au-dessus que en-dessous de la moyenne
- La droite est au bon endroit lorsque la somme des écarts à la moyenne = 0
Qu’est-ce que nous indique l’angle entre la droite de régression et l’abscisse?
Il nous indique le degré de relation xy
Pourquoi est-ce que l’approche statistique de la régression est-elle plus utilisée que l’approche par positionnement?
- La régression est réduite au positionnement de la droite
- Le positionnement par graphique est facilement imprécis, lent et fastidieux, et n’est pas généralisable aux formes de régression plus complexes
Comment peut-on prédire y à partir de x?
La valeur prédite (ŷ) se trouve en multipliant la corrélation par le score-z de la valeur x de l’observation.
ŷ = rxy * zx
Quel est l’équivalent de Rxy dans une corrélation standardisée?
Rxy devient “béta”, le coefficient de régression standardisée.
Béta équivaut toujours à Rxy
Quel est l’équation de la régression simple standardisée?
ŷ = bx * zx
où b = béta (c’est notre indice qu’il s’agit du régression standardisée)
Quel est le principal inconvénient de la régression standardisée?
Avec l’approche graphique ou statistique, la régression standardisée a un inconvénient majeur : elle produit un estimé de y en score-z plutôt qu’en valeur de l’échelle originale
Ce n’est utile que si l’on cherche si une variable x a une influence sur une variable y, sur le plan théorique.
Qu’est que la régression simple non-standardisée?
- La régression NS analyse les données originales et produit un estimé en valeurs originales
- Mais les valeurs originales proviennent de distributions x et y qui n’ont pas nécessairement une moyenne et un s identique
- La droite sera établie en intégrant les moyennes et s de x et y
- Est utile lorsqu’on est sur le terrain et qu’on veut faire des prédictions pratiques dans la vie de tout les jours
Quels sont les deux éléments qui définissent la droite de régression?
L’ordonnée à l’origine et la pente
y - bx + a
À quoi correspond le coefficient de régression NS (soit “b”)?
Il s’agit de la corrélation Rxy calculée en valeurs réelles (et non pas en scores-z)
Requiert les moyennes de x et y et les s de x et y
“b” indexe numériquement la taille du changement sur y relativement à la taille du changement sur x
Qu’est-ce qui permet d’intégrer le fait que les variables x et y n’ont pas nécessairement la même moyenne et le même s dans la régression NS?
L’ordonnée à l’origine, soit “a”
Comment calcule-t-on le coefficient de régression NS “b”?
b = Rxy * (sy / sx)
(sy/sx) est une correction arithmétique permettant d’exprimer la corrélation en valeur brute et non pas en valeur standardisée car Rxy est une valeur standardisée (relation en x et y exprimées en scores-z)
Quelles sont les caractéristiques de “b” et “béta”?
- La valeur min de “b” = 0 et la valeur max est indéterminée
- La valeur de “béta” et de Rxy sont identiques
- Le signe de “b” et “béta” est identique à celui de Rxy
Quelles sont les caractéristiques de “a”?
- “a” est une constante qui est ajoutée au produit de “b” pour finaliser la prédiction de y
- Prend en considération que x et y n’ont pas nécessairement la même moyenne
- Sert à ajuster la valeur prédite afin qu’elle soit sur l’échelle de y
- Indique la valeur sur y lorsque x est à sa valeur minimale ou x = 0
Comment calcule-t-on “a”?
a = moyenne de y - (b * moyenne de x)
Quelles sont les similarités entre la régression standardisée et NS?
- La droite de régression est déterminée par la relation Rxy
- S’établissent graphiquement de la même manière
Quelles sont les différences entre la régression standardisée et NS?
- L’ordonnée à l’origine est toujours 0 en standardisée, alors qu’elle n’est presque jamais 0 en NS
- La standardisée utilise la corrélation pour produire un estimé en valeur standardisée
- La NS utilise la relation NS pour produire une estimation en valeurs originales
Qu’est-ce que l’erreur d’estimation?
- Plus élevée est la corrélation Rxy, plus élevé sera le coefficient de régression b
- Plus élevé est le coefficient, plus précise sera la prédiction. Toutes les coordonnées sont plus proche de la droite de régression et donc, plus précise sera la prédiction
- Si la prédiction est plus “précise”, le risque d’erreur est alors plus faible
- Erreur d’estimation = intervalle de confiance
Pourquoi a-t-on besoin de l’erreur d’estimation?
- La régression est utilisée pour “prédire” une valeur inconnue qui servira à prendre une décision au sujet de la personne
- Si nous faisons une erreur, cela pourrait être potentiellement grave pour la personne
- Il faut donc un moyen d’estimer la taille de l’erreur d’estimation
Quel est l’impact de b ou “béta” sur l’erreur d’estimation?
Plus b ou “béta” est petit, plus l’erreur d’estimation sera grande et vice-versa
Comment calcule-t-on l’erreur d’estimation pour une observation?
e = (ŷ - y). e = l’erreur d’estimation. ŷ = la valeur prédite de y. y = la véritable valeur de y
Comment calcule-t-on l’erreur moyenne d’estimation?
𝛸 erreur= S(ŷ - y)²/ n -1
On la met au carré car la droite de régression est construite de manière à ce que la somme des erreurs positives soit égale à la somme des erreurs négatives
Pour avoir l’erreur moyenne d’estimation, on fait la racine carré de tout ça
Qu’est-ce que nous indique l’erreur type d’estimation?
- Elle nous indique l’erreur typique que nous faisons avec nos prédictions
- Nous utilisons cette information pour calculer une fourchette de valeurs à l’intérieur de laquelle se trouvera “probablement” la véritable valeur (ressemble au principe de l’intervalle de confiance)
À quel autre statistique ressemble l’erreur type?
Elle ressemble à l’écart-type
Lorsqu’on calcule IC, on sait qu’il y a 68% de chances que la véritable valeur de y se retrouve entre +-1 erreur type de l’estimation
On peut décider d’avoir un plus grand IC pour avoir 95% ou 99% de chances de trouver la véritable valeur
Quelle est la relation entre Rxy/b/béta et l’erreur type?
- Plus faible est Rxy/b, plus élevée sera l’erreur type
- Plus élevée est l’erreur type, plus large sera la fourchette de valeurs autour de la valeur prédite (prédiction moins précise)
- Lorsque Rxy ou béta est parfait, l’erreur = 0 (la prédiction n’aura pas d’erreurs)
Que sont les postulats de la régression?
- Échelles à intervalles ou de rapport (ratio)
- Variance sur x et y (homogénéité des variances)
- Linéarité
- Distribution normales de x et y
- Éviter les valeurs extrêmes
- Variance égale des erreurs de prédictions
- Distribution normale des erreurs de prédictions