Séance 14 : La régression Flashcards
Quel est le but de la régression?
Avec la régression, nous voulons prédire la valeur d’une
variable (Y) avec une autre (X):
- VI: Variable prédictrice (X);
- VD: Variable prédite (Y).
V ou F : Il y a un lien causal entre les 2 variables.
Faux, nous effectuons cette prédiction sur la base
de la relation entre les variables. Ceci ne signifie pas que nous croyons qu’il existe un lien de causalité! Il
est toujours impossible de satisfaire les 3 conditions
essentielles pour un lien causal.
Comment sont liées la corrélation et la régression?
Si 2 variables sont reliées (corrélées), il est possible de faire des prédictions sur une variable à partir de l’autre variable.
• En ce sens, la régression linéaire et la corrélation sont
fréquemment rencontrées conjointement
Exemples de variables utilisées.
Nb. de cigarettes Espérance de vie
Cote R Rendement Universitaire
Heures d’études Note à l’examen
Stress vécu Détresse psychologique
Sur quoi repose la qualité de la prédiction?
La qualité de la prédiction repose sur la force de la
relation linéaire entre les deux variables en question.
• Plus la corrélation entre les variables est élevée, plus il sera facile de prédire une variable à partir de l’autre (plus les points sont proches de la droite de régression)
Comment effectuer la meilleure prédiction et minimiser l’erreur?
À l’aide de la droite de régression. Les valeurs prédites sont celles sur la droite. Plus les points sont proches de la droite, moins je fais d’erreurs,
Qu’est-ce que fait la droite de régression?
-La droite permet d’effectuer la meilleure prédiction de Y
à partir de X.
-La droite minimise l’erreur de prédiction et passe par un maximum de points
La droite passe par la moyenne des points du diagramme de dispersion (par la moyenne de y et la moyenne de x en 1 point)
Comment calcule-t-on l’erreur de prédiction?
On calcule la différence entre la valeur réelle et la valeur prédite Ŷ.
L’erreur de prédiction (ou résidu) c’est la différence
entre le Y réel (observé) et le Y prédit (Ŷ).
=> pas grave si négatif, va s’annuler
Qu’arrive-t-il à l’erreur de prédiction quand la corrélation est parfaite?
Avec une corrélation parfaite, chaque Ŷ sera identique au Y réel. Il n’y aura aucune erreur de prédiction
Comment trouver la pente?
Regarder de comment y monte quand je monte de 1 x… ou delta y sur delta x
Quelle droite recherche t’on?
En régression, on cherche la droite qui minimise les
erreurs de prédiction ou résidus.
• On veut faire le moins d’erreurs possibles dans notre prédiction.
• On veut en quelque sorte rapprocher la droite le plus possible de tous les points. On cherche le meilleur compromis (linéaire) entre tous les points.
Autrement dit, on vise à minimiser les écarts entre les valeurs observées et les valeurs prédites.
Qu’est-ce que Σ (Y – Ŷ)2 ? Pourquoi au carré?
La sommation des erreurs de prédiction, on cherche à la minimiser.
Pourquoi la somme des différences au carré ?
• Pour ne pas avoir une somme de 0 (ce qui arrivera si on additionne des écarts positifs et négatifs)
§ Σ(Y – Ŷ) = 0
V ou F : On souhaite que la somme des carrés soit la grande possible. La prédiction sera ainsi plus grande.
Faux, On souhaite que la somme de carrés soit la plus petite possible.
• Plus elle est petite, plus les points sont près de la
droite, meilleure est la prédiction (on fait moins
d’erreurs).
Quelle est l’équation de régression?
Ŷ = bX + a
Où:
• Ŷ = La valeur prédite de Y;
• X = La valeur du prédicteur (on l’a déjà) (?);
• b = La pente de la droite de régression (coefficient
de régression)
• a = L’ordonnée à l’origine (valeur de Ŷ quand X = 0)
Comment on calcule a et b? Quel est le but?
On cherche les valeurs de b et de a qui minimisent
Σ(Y – Ŷ)2
=> qui donneront la fonction linéaire la moins ajustée, ou les points sont le plus près
b = COVxy/variance x
a = moyenne y - b x moyenne x
Quand la droite de régression est-elle utile en elle-même?
Pour prédire une valeur précise.
EX: Prédire le rendement d’un étudiant au baccalauréat
en Ψ (Ŷ) à partir de la cote R (X).
=> on va remplacer sa cote R dans la droite et on va obtenir Ŷ
=`> pas vraiment utile en psy, on veut plus savoir si au niveau théorique s’il y a une relation, est-ce POSSIBLE de prédire une variable à partir d’une autre (pas nécessairement le faire)