Semaine 14 : La régression Flashcards
À quoi nous sert la régression?
À prédire la valeur d’une variable (Y) avec une autre (X).
Soit qu’on prédit X par rapport à Y; ou on prédit Y par rapport à X.
**On ne saura jamais quelle variable influence l’autre.
Vrai ou faux? La régression linéaire et la corrélation sont fréquemment rencontrées conjointement.
Vrai. Ainsi, si on ne trouve pas de corrélation significative entre 2 variables et qu’on fait une régression, on va se rendre compte qu’il n’est pas possible de prédire la variable Y à partir de X.
L’inverse est vrai aussi, si on trouve une corrélation significative entre 2 variables, on va aussi être capable de prédire la variable Y à partir de X.
Sur quoi repose la qualité de la prédiction?
La qualité de la prédiction repose sur la force de la relation linéaire entre les 2 variables.
Plus la corrélation entre les variables est élevée, plus il sera facile de prédire une variable à partir de l’autre.
À quoi sert la droite de régression?
La droite permet d’effectuer la meilleure prédiction de Y à partir de X.
Elle minimise l’erreur de prédiction et passe par un maximum de points.
Vrai ou faux? La droite de régression passe par la moyenne des points du diagramme de dispersion.
Vrai.
Qu’est-ce que l’erreur de prédiction (résidu)?
C’est la différence entre le Y réel (observé) et le Y prédit.
Vrai ou faux? En régression, on cherche la droite qui minimise les erreurs de prédiction ou résidus. Autrement dit, on vise à minimiser les écarts entre les valeurs observées et les valeurs prédites.
Vrai.
On cherche à minimiser la somme de carrés des écarts entre les valeurs observées et les valeurs prédites.
Somme des différences au carré –> Pour ne pas avoir une somme de 0.
Vrai ou faux? On souhaite que la somme de carrés soit la plus grande possible.
Faux. On souhaite que la somme de carrés soit la plus PETITE possible!
Plus elle est petite, plus les points sont près de la droite, meilleure est la prédiction (on fait moins d’erreurs).
Quelle est l’équation de régression?
^Y = bX + a
b = Pente de la droite de régression (coefficient de régression)
a = Ordonnée à l’origine (valeur de ^Y quand X = 0)
Que représente la pente (ou coefficient de régression)?
La valeur de b est le nombre d’unités de changement de ^Y en fonction d’un changement d’une unité de X.
Quelle est la différence entre la variable “b” et “β”?
β = Lorsqu’on a standardisé nos données (scores Z) avant d’appliquer notre droite de régression, on attribue au coefficient de régression standardisé la variable β (pour le différencier du coefficient de régression non standardisé : b)
Pourquoi utiliser un coefficient de régression standardisé (β)?
- Indépendant de l’échelle de mesure
- Représente le changement de ^Y en fonction du changement d’un ÉCART-TYPE (plutôt que d’une unité) de X
- Utile pour comparer l’importance relative de différents β
(ex : Prédire la note à l’examen en fonction du nb d’heures d’études (X1), du niveau de stress (X2) et du nombre d’heures de sommeil (X3)).
En régression simple, comment trouve-t-on la valeur de β?
En régression simple, β = r
Vrai ou faux? Plus r^2 est petit, plus la prédiction est bonne.
Faux. Plus r^2 est grand (plus la corrélation est forte), plus la prédiction est bonne (moins de chance d’erreurs de prédiction).
À quoi sert le test d’hypothèse sur la régression (test inférentiel)?
À déterminer si la prédiction de ^Y par X est généralisable à la population.