Séance 14 : La régression Flashcards
Quel est le but de la régression?
Avec la régression, nous voulons prédire la valeur d’une
variable (Y) avec une autre (X):
- VI: Variable prédictrice (X);
- VD: Variable prédite (Y).
V ou F : Il y a un lien causal entre les 2 variables.
Faux, nous effectuons cette prédiction sur la base
de la relation entre les variables. Ceci ne signifie pas que nous croyons qu’il existe un lien de causalité! Il
est toujours impossible de satisfaire les 3 conditions
essentielles pour un lien causal.
Comment sont liées la corrélation et la régression?
Si 2 variables sont reliées (corrélées), il est possible de faire des prédictions sur une variable à partir de l’autre variable.
• En ce sens, la régression linéaire et la corrélation sont
fréquemment rencontrées conjointement
Exemples de variables utilisées.
Nb. de cigarettes Espérance de vie
Cote R Rendement Universitaire
Heures d’études Note à l’examen
Stress vécu Détresse psychologique
Sur quoi repose la qualité de la prédiction?
La qualité de la prédiction repose sur la force de la
relation linéaire entre les deux variables en question.
• Plus la corrélation entre les variables est élevée, plus il sera facile de prédire une variable à partir de l’autre (plus les points sont proches de la droite de régression)
Comment effectuer la meilleure prédiction et minimiser l’erreur?
À l’aide de la droite de régression. Les valeurs prédites sont celles sur la droite. Plus les points sont proches de la droite, moins je fais d’erreurs,
Qu’est-ce que fait la droite de régression?
-La droite permet d’effectuer la meilleure prédiction de Y
à partir de X.
-La droite minimise l’erreur de prédiction et passe par un maximum de points
La droite passe par la moyenne des points du diagramme de dispersion (par la moyenne de y et la moyenne de x en 1 point)
Comment calcule-t-on l’erreur de prédiction?
On calcule la différence entre la valeur réelle et la valeur prédite Ŷ.
L’erreur de prédiction (ou résidu) c’est la différence
entre le Y réel (observé) et le Y prédit (Ŷ).
=> pas grave si négatif, va s’annuler
Qu’arrive-t-il à l’erreur de prédiction quand la corrélation est parfaite?
Avec une corrélation parfaite, chaque Ŷ sera identique au Y réel. Il n’y aura aucune erreur de prédiction
Comment trouver la pente?
Regarder de comment y monte quand je monte de 1 x… ou delta y sur delta x
Quelle droite recherche t’on?
En régression, on cherche la droite qui minimise les
erreurs de prédiction ou résidus.
• On veut faire le moins d’erreurs possibles dans notre prédiction.
• On veut en quelque sorte rapprocher la droite le plus possible de tous les points. On cherche le meilleur compromis (linéaire) entre tous les points.
Autrement dit, on vise à minimiser les écarts entre les valeurs observées et les valeurs prédites.
Qu’est-ce que Σ (Y – Ŷ)2 ? Pourquoi au carré?
La sommation des erreurs de prédiction, on cherche à la minimiser.
Pourquoi la somme des différences au carré ?
• Pour ne pas avoir une somme de 0 (ce qui arrivera si on additionne des écarts positifs et négatifs)
§ Σ(Y – Ŷ) = 0
V ou F : On souhaite que la somme des carrés soit la grande possible. La prédiction sera ainsi plus grande.
Faux, On souhaite que la somme de carrés soit la plus petite possible.
• Plus elle est petite, plus les points sont près de la
droite, meilleure est la prédiction (on fait moins
d’erreurs).
Quelle est l’équation de régression?
Ŷ = bX + a
Où:
• Ŷ = La valeur prédite de Y;
• X = La valeur du prédicteur (on l’a déjà) (?);
• b = La pente de la droite de régression (coefficient
de régression)
• a = L’ordonnée à l’origine (valeur de Ŷ quand X = 0)
Comment on calcule a et b? Quel est le but?
On cherche les valeurs de b et de a qui minimisent
Σ(Y – Ŷ)2
=> qui donneront la fonction linéaire la moins ajustée, ou les points sont le plus près
b = COVxy/variance x
a = moyenne y - b x moyenne x
Quand la droite de régression est-elle utile en elle-même?
Pour prédire une valeur précise.
EX: Prédire le rendement d’un étudiant au baccalauréat
en Ψ (Ŷ) à partir de la cote R (X).
=> on va remplacer sa cote R dans la droite et on va obtenir Ŷ
=`> pas vraiment utile en psy, on veut plus savoir si au niveau théorique s’il y a une relation, est-ce POSSIBLE de prédire une variable à partir d’une autre (pas nécessairement le faire)
À quoi peut servir l’ordonnée à l’origine (a) ?
Lorsqu’on veut savoir le
niveau de base:
• Ex: À quel résultat puis-je
m’attendre si un étudiant n’a pas étudié du tout ?
=43%
Mais, dans d’autres cas, l’ordonnée à
l’origine n’a aucune
signification
EX; Prédiction du score
d’autosatisfaction à partir du
poids d’un individu (si le poids est de 0, la personne n’existe pas…)
Qu’est-ce que la pente (b)
La valeur de b est le nombre d’unités de changement
de Ŷ en fonction d’un changement d’une unité de X.
si b = 5000
si j’augmente de 1 (ex: an), j’augmente de 5000 (ex:$)
Quel est un synonyme de la pente ? À quoi on le différencie?
Le coefficient de régression (b). On le différencie du coefficient de regression standardisé utilisé pour des données standardisées (ex: scores Z) qui est β (bêta)
Pourquoi utiliser un coefficient de régression standardisé (bêta ou ß) ?
DIff calcul : sx = 1
• Indépendant de l’échelle de mesure;
• Représente le changement de Ŷ en fonction du changement
d’un écart-type (plutôt qu’une unité) de X (quand je monte de 1 écart-type)
• Utile pour comparer l’importance relative de différents ß (p.
ex., lorsqu’on a plusieurs variables prédictrices (x) en
régression multiple)
=> tous les standardiser pour pouvoir comparer
Que dit r^2 de la prédiction?
r2 = Meilleur indice de la qualité de la prédiction.
Plus r2 est grand (plus la corrélation est forte), plus la prédiction est bonne (moins de chance d’erreurs de prédiction).
pour trouver : b^2 ??
Comment interpréter r^2 ?
r2 = % de variance de Y qui est prédite par X (ou contraire). => SE BASER SUR M.E.S
Ex; Avec un r2 = .35, je peux prédire 35% de la variation des
notes à l’examen (Y) à partir du nb. d’heures d’études (X).
Pourquoi faire un test inférentiel? Que détermine le test?
Afin de savoir si le prédicteur permet vraiment de prédire la variabilité de Y dans la population
Le test d’hypothèse sur la régression détermine si la
prédiction de Ŷ par X est généralisable à la population.
Sur quel coefficient est effectué le test inférentiel?
Sur le r^2 (même si en régression simple, équivalent avec r ou b).
On vérifie si r^2 =pas à 0 dans la population
V ou F : Si la corrélation est significative, la régression ne l’est pas nécessairement
Faux, un r significatif indique automatiquement que b ≠ 0. (car m chiffre)
Quelle logique utilise-t-on pour le test inférentiel?
La logique de l’ANOVA, on fait un rapport de variances.
On compare :
F = Variabilité de Y attribuable à X / Variabilité de Y PAS attribuable à X
=> On cherche à voir si X explique un % suffisant de la variance de Y, on
conclura que X permet bel et bien de prédire Y dans
la population.
Qu’est-ce que SC totale?
SC régression?
SC résiduelle?
Variation totale de Y
Variation de Y expliquée par X
Variation de Y non expliquée par X
On fait le rapport : SC régression / SC résiduelle
Comment on trouve r^2 avec le test inférentiel?
Variation de Y expliquée par X/Variation totale
SC régression/SC totale
**diff de rapport F avec CM régression et CM résiduel
Quel sera le résultat de b dans l’ANOVA sur spss?
Lorsqu’il y a un seul prédicteur (régression simple), le
résultat sera identique à celui de l’ANOVA.
r^2 = b
Étape 1 à la main
Identifier les hypothèses statistiques (H0 et H1)
H0 : ρ2 = 0
(L’humeur dépressive n’explique aucunement le rendement
au travail dans la population)
H1 = ρ2 ≠ 0
(L’humeur dépressive explique au moins une partie du
rendement au travail dans la population)
jamais de direction.
Étape 2 à la main
Spécifier le seuil de signification alpha (α)
• α = .05
Étape 3 à la main
a. Choix du test utilisé : Test de régression linéaire simple
b. Conditions d’utilisation :
- Homogénéité des variances
- Relation linéaire entre les deux variables
- Variables normalement distribuées
- 2 variables sur échelle de ratio ou d’intervalle
- n suffisamment grand (n>20)
c. Distribution d’échantillonnage du F de Fisher avec 1 dl au numérateur et n-2 dl au dénominateur
d. Calculs :
Fobs(1, 19) = donné
Étape 4 à la main
Fcrit dans table du F (regarder niveau alpha et les dls)
Fobs(1, 43) = 4,89 > Fcrit(1, 43) = 4,08. on rejette H0.
Étape 5 à la main
Conclusion selon le contexte
avec le r^2 (dit dans problématique ou sur spss)
On conclut que l’humeur dépressive permet de prédire 10% de la variance du rendement au travail.
• Si on avait accepté H0, on aurait dit que l’humeur
dépressive ne permet pas de prédire la variance du
rendement au travail.
Le R dans récapitulatif des modèles est le r.
Non, sans la direction (il est tj positif)
Quel est le r^2 (bon) ?
R-deux dans récapitulatif des modèles
où est le F observé dans spss?
D dans ANOVA
QUe représente sig?
Le p en bas duquel le r^2 est significatif
Où est a sur spss?
juste sous A dans coefficients
Où est b sur spss?
juste sous le a (ordonnée) dans coefficients
Où est le bon r?
Bêta dans coefficients
Étape 4 sur spss
F(1, 45) = 4,89. p = 0,03 < alpha = 0,05. On rejette H0.
seule diff sauf calcul spss