Cours 10 : La régression multiple Flashcards
En quoi la régression simple et la régression multiple sont-ils semblables? et différents?
Tout comme la régression simple, la régression multiple est un modèle hypothétique qui prédit y toutefois là où ils sont différents est que la régression multiple utilise plusieurs prédicteurs (plusieurs variables)
Dans une régression multiple, est-il vrai de penser que si on a 2 prédicteurs (ex: les habiletés sociales et la compétence technologique) chacun a un apport de 50% sur la prédiction de y?
Non! on ne peut pas penser que chaque variable, ou prédicteur, dans la régression multiple pèse de la même manière dans la prédiction de y.
- Il y a souvent une variable qui pèse plus que les autres.
Dans l’ajout de variables pour prédire y, qu’est-ce que l’on veut éviter?
on veut éviter d’ajouter des variables qui n’ajoute pas de variance à la prédiction de y. D’ajouter des variables qui n’expliquent pas plus de variance peut même nuire au modèle!
Compréhension
J’ai un R2 de 0,335. Calcule la corrélation
√0,335
= 0,57
En ajoutant plusieurs prédicteurs est-ce qu’on peut dire que ma prédiction sera parfaite?
non! l’ajout de variables ne garanti pas une prédiction parfaite de y. Il y a toujours de l’erreur de prédiction qui demeure.
Compréhension
Si je prédis 35 pour un participant et qu’il obtient 30, que peut-on dire sur la différence entre ces 2 nombres?
La différence de 5 points est l’erreur de prédiction!
Équation : Régression multiple
Que signifie le a ou le b0 dans l’équation de régression multiple?
Y = a +b1(x) + b2(x) + b3(x) + e
Le a = l’ordonnée à l’origine.
- c’est la valeur de Y quand tous les x = 0
- Il s’agit du point où la droite de régression croise l’axe des Y.
Équation : Régression multiple
Que signifie le b dans l’équation de régression multiple?
Y = a +b1(x) + b2(x) + b3(x) + e
b = coefficient de régression pour chaque variable ajoutée.
- b1 = coefficient de régression pour variable 1
- b2 = coefficient de régression pour variable 2
Donc chaque variable dans la régression multiple contient son propre bêta non standardisé.
Méthodes
Quelles sont les 3 méthodes pour la régression multiple?
1) Régression hiérarchique
2) Régression entrée
3) Régression stepwise
Méthodes
En quoi consiste la régression hiérarchique?
Le chercheur décide l’ordre dans lequel les variables sont entrées dans le modèle.
Régression hiérarchique
Dans quelle ordre doit-on entrer les variables dans une régression hiérarchique?
On entre les variables déjà connues en premier (à partir de la théorie) et ensuite on entre les nouvelles variables. Ces nouvelles variables sont souvent des variables qui n’ont pas encore été démontrés par la science ou simplement qu’elles sont plus difficiles à tester.
- Non respect de l’ordre d’entrée = peut mener à des conclusions erronées
Méthodes
Explique en quoi consiste les 2 autres méthodes de régression hiérarchique ; entrée & stepwise.
Entrée : On entre les prédicteurs simultanéent sans avoir d’ordre préétablis.
Stepwise: SPSS choisi l’ordre d’entrée des variables à partir de critères mathématiques. Il ne prend pas compte de la théorie. (DÉCONSEILLÉ)
Méthodes
Quelle méthode de régression multiple est la meilleure?
a) stepwise
b) hiérarchique
c) entrée
b) hiérarchique
Régression hiérarchique
Dans la régression hiérarchique on entre la variable connue en premier, explique ce que cela veut dire
La variable connue est la variable basée sur la théorie à partir d’une rescension des écrits exécutée par le chercheur.
- on entre ensuite les nouvelles variables car la régression hiérarchique va nous permettre de voir la contribution unique de cette nouvelle variable au modèle.
Régression hiérarchique
Quel est l’inconvénient à la régression hiérarchique comme les variables connues sont entrées en premier?
Si le chercheur n’a pas bien fait sa recension des écrits, il peut choisir d’utiliser des variables moins présentes dans la théorie ou manquer certains prédicteurs.
Compréhension
Je fais une régression multiple. Voici les données de SPSS
Prédicteur : Le nombre de vente de disques
Modèle / R / R carré / changement R carré / changement F
Modèle 1 : 0,578 / 0,335 / 0,335 / 99,587 (budget)
Modèle 2 : 0,815 / 0,665 / 0,330 / 96, 447 (budget, attirance au band, nombre de fois joué à la radio)
Q: Est-ce que l’ajout de variables a permi d’ajouter de la variance? Si oui, combien %?
Q : Quel est le % de variance expliqué par chaque variable?
Modèle 1 :
- Le budget explique 33,5% de la variance de la VD. (nombre de disques)
Modèle 2 :
- L’attirance au band & nombre de fois joué à radio expliquent 66,5% de la variance de la VD.
- OUI ces variables ajoutent de la variance non expliquée, elles ajoutent 33% de variance au 33,5% déjà expliqué.
Variation de F
?
Régression multiple
Mon output ANOVA me dit ceci:
Modèle 1 :
Régression : 433 687,833 Carré Moyen modèle: 433 687,833
Résiduel : 862 264,167 Carré Moyen résiduel : 287 125,806
Modèle 2 :
Régression : 861 377,418. Carré Moyen modèle : 287 125, 806
Résiduel : 434 574,582. Carré Moyen résiduel : 2217, 217
Q: Que peut-tu dire sur le modèle 2 donc par l’ajout de variables?
Je peux dire que l’ajout de variables a diminué le résiduel (SSr) donc a augmenté le modèle (SSm)
- Ces nouvelles variables expliquent donc plus de variance qu’au départ avec le modèle 1, notamment car le résiduel a été diminué.
Si l’ajout de variables pourrait potentiellement expliquer le % de variance attribuable au modèle, alors pourquoi ne pas ajouter le plus de variables possibles pour expliquer le plus de variance?
Par l’ajout de chaque nouvelle variable, on augmente le degré de liberté. Ainsi, le carré moyen du modèle est affecté négativement.
Et, lorsque le carré moyen est affecté négativement, le ratio F est aussi affecté donc réduit.
Interprétation
Le output SPSS présente les coefficients ci-dessous; Écrit la droite de régression pour les 3 prédicteurs du modèle 2
Bêtas non standardisés:
Modèle 1 :
- Constante = 134 140
- Budget = 0,09
Modèle 2:
- Constante = -26,613
- Budget = 0,085
- nombre de fois joué radio = 3,367
- Attirance au band = 11,086
Y = a + b1 + b2 + b3
Y = -26,613 + 0,085(x) + 3,367(x) + 11,086(x)
Interprétation
Le output SPSS présente les coefficients ci-dessous; Que peux-tu dire sur l’ajout des variables dans le modèle 2?
Bêtas standardisés:
Modèle 1 :
- Budget = 0,578
Modèle 2:
- Budget = 0,511
- nombre de fois joué radio = 0,512
- Attirance au band = 0,192
Le budget et le nombre de fois joué à la radio apportent le même poids en terme de variance sur la vente de disques.
L’attirance au band, ajoute très peu de variance. Elle semble être la variable la moins importante.
Pratique régression multiple
Que peux-tu dire sur la VI1 et la VI2 en rapport à la VD ?
VI1 VI2 VD
60 50 50
60 50 50
60 50 50
70 50 50
80 60 60
80 60 60
- Il y a une corrélation parfaite entre la VD et la VI2
- On voit que la VI2 prédit parfaitement la VD
- La VI2 prédit donc mieux la VD que la VI1
Pratique régression hiérarchique
Que peux-tu dire sur la variance expliqué par VI1 et la VI2 en rapport à la VD ?
VI1 VI2 VD
0 10 0
0 10 0
10 0 10
10 0 10
20 0 20
20 0 20
60 50 50
60 50 50
60 50 50
70 50 50
80 60 60
80 60 60
On voit que la VI2 corrige l’erreur de la VI1, donc elle explique l’erruer que la VI1 n’expliquait pas, ainsi la VI2 est un bon prédicteur à rajouter parce qu’il n’explique pas la même variance
Pratique régression hiérarchique
Que peux-tu dire sur la VI1 et la VI3 en rapport à la VD ?
VI1 VI2 VD VI3
60 50 50 60
60 50 50 60
60 50 50 60
70 50 50 70
80 60 60 80
80 60 60 80
En ajoutant la VI3 comme prédicteur, on voit qu’elle explique la même variance que la VI1, donc la VI3 n’apporte strictement rien à ma variance expliquée
Pratique régression hiérarchique
Dans mon tableau SPSS, sous la case “ R square change”, je vois la valeur de 0.00. Sous la case “Sig. F change” je vois 0.874
Qu’est-ce que cela m’indique ?
Si après avoir ajouté une seconde variable le “R square change” est à 0, cela indique que la variable n’a rien ajouter à notre VI1.
Le sig. F est donc non significatif
Pratique régression hiérarchique
Que peux-tu dire sur la relation entre la VI3 et la VI1?
R : entre la VI1 et VI3 = 0.908
VI1 VI2 VD VI3
60 50 50 60
60 50 50 60
60 50 50 60
70 50 50 70
80 60 60 80
80 60 60 80
La VI1 et la VI3 sont très fortement corrélées ensemble, mais dans un contexte de régression hiérarchique, la VI3 calcul la même variance que la VI1
Compréhension
En considérant ces données (Kg et Lb sont parfaitement corrélés) :
Beta non standardisé
Kg = 0.670 Constante = -25.500
Lb = 0.305 Constante = -25.500
Kg Lb Bonheur
50 110 50
60 132 50
70 154 50
80 176 50
90 198 60
Vrai ou faux : Lorsque je calculerai le niveau de bonheur à partir de 90Kg, ma valeur de Y calculée sera la même que pour 198Lbs ?
Vrai !
Même si le beta non standardisé n’est pas le même, puisqu’ils sont parfaitement corrélés ensemble, les valeurs de Y seront les mêmes.