Cours 10 : La régression multiple Flashcards

1
Q

En quoi la régression simple et la régression multiple sont-ils semblables? et différents?

A

Tout comme la régression simple, la régression multiple est un modèle hypothétique qui prédit y toutefois là où ils sont différents est que la régression multiple utilise plusieurs prédicteurs (plusieurs variables)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Dans une régression multiple, est-il vrai de penser que si on a 2 prédicteurs (ex: les habiletés sociales et la compétence technologique) chacun a un apport de 50% sur la prédiction de y?

A

Non! on ne peut pas penser que chaque variable, ou prédicteur, dans la régression multiple pèse de la même manière dans la prédiction de y.

  • Il y a souvent une variable qui pèse plus que les autres.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Dans l’ajout de variables pour prédire y, qu’est-ce que l’on veut éviter?

A

on veut éviter d’ajouter des variables qui n’ajoute pas de variance à la prédiction de y. D’ajouter des variables qui n’expliquent pas plus de variance peut même nuire au modèle!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Compréhension

J’ai un R2 de 0,335. Calcule la corrélation

A

√0,335
= 0,57

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

En ajoutant plusieurs prédicteurs est-ce qu’on peut dire que ma prédiction sera parfaite?

A

non! l’ajout de variables ne garanti pas une prédiction parfaite de y. Il y a toujours de l’erreur de prédiction qui demeure.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Compréhension

Si je prédis 35 pour un participant et qu’il obtient 30, que peut-on dire sur la différence entre ces 2 nombres?

A

La différence de 5 points est l’erreur de prédiction!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Équation : Régression multiple

Que signifie le a ou le b0 dans l’équation de régression multiple?

Y = a +b1(x) + b2(x) + b3(x) + e

A

Le a = l’ordonnée à l’origine.

  • c’est la valeur de Y quand tous les x = 0
  • Il s’agit du point où la droite de régression croise l’axe des Y.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Équation : Régression multiple

Que signifie le b dans l’équation de régression multiple?

Y = a +b1(x) + b2(x) + b3(x) + e

A

b = coefficient de régression pour chaque variable ajoutée.

  • b1 = coefficient de régression pour variable 1
  • b2 = coefficient de régression pour variable 2

Donc chaque variable dans la régression multiple contient son propre bêta non standardisé.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Méthodes

Quelles sont les 3 méthodes pour la régression multiple?

A

1) Régression hiérarchique
2) Régression entrée
3) Régression stepwise

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Méthodes

En quoi consiste la régression hiérarchique?

A

Le chercheur décide l’ordre dans lequel les variables sont entrées dans le modèle.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Régression hiérarchique

Dans quelle ordre doit-on entrer les variables dans une régression hiérarchique?

A

On entre les variables déjà connues en premier (à partir de la théorie) et ensuite on entre les nouvelles variables. Ces nouvelles variables sont souvent des variables qui n’ont pas encore été démontrés par la science ou simplement qu’elles sont plus difficiles à tester.

  • Non respect de l’ordre d’entrée = peut mener à des conclusions erronées
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Méthodes

Explique en quoi consiste les 2 autres méthodes de régression hiérarchique ; entrée & stepwise.

A

Entrée : On entre les prédicteurs simultanéent sans avoir d’ordre préétablis.

Stepwise: SPSS choisi l’ordre d’entrée des variables à partir de critères mathématiques. Il ne prend pas compte de la théorie. (DÉCONSEILLÉ)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Méthodes

Quelle méthode de régression multiple est la meilleure?

a) stepwise
b) hiérarchique
c) entrée

A

b) hiérarchique

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Régression hiérarchique

Dans la régression hiérarchique on entre la variable connue en premier, explique ce que cela veut dire

A

La variable connue est la variable basée sur la théorie à partir d’une rescension des écrits exécutée par le chercheur.

  • on entre ensuite les nouvelles variables car la régression hiérarchique va nous permettre de voir la contribution unique de cette nouvelle variable au modèle.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Régression hiérarchique

Quel est l’inconvénient à la régression hiérarchique comme les variables connues sont entrées en premier?

A

Si le chercheur n’a pas bien fait sa recension des écrits, il peut choisir d’utiliser des variables moins présentes dans la théorie ou manquer certains prédicteurs.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Compréhension

Je fais une régression multiple. Voici les données de SPSS

Prédicteur : Le nombre de vente de disques

Modèle / R / R carré / changement R carré / changement F
Modèle 1 : 0,578 / 0,335 / 0,335 / 99,587 (budget)
Modèle 2 : 0,815 / 0,665 / 0,330 / 96, 447 (budget, attirance au band, nombre de fois joué à la radio)

Q: Est-ce que l’ajout de variables a permi d’ajouter de la variance? Si oui, combien %?
Q : Quel est le % de variance expliqué par chaque variable?

A

Modèle 1 :

  • Le budget explique 33,5% de la variance de la VD. (nombre de disques)

Modèle 2 :

  • L’attirance au band & nombre de fois joué à radio expliquent 66,5% de la variance de la VD.
  • OUI ces variables ajoutent de la variance non expliquée, elles ajoutent 33% de variance au 33,5% déjà expliqué.
17
Q

Variation de F

18
Q

Régression multiple

Mon output ANOVA me dit ceci:

Modèle 1 :
Régression : 433 687,833 Carré Moyen modèle: 433 687,833
Résiduel : 862 264,167 Carré Moyen résiduel : 287 125,806

Modèle 2 :
Régression : 861 377,418. Carré Moyen modèle : 287 125, 806
Résiduel : 434 574,582. Carré Moyen résiduel : 2217, 217

Q: Que peut-tu dire sur le modèle 2 donc par l’ajout de variables?

A

Je peux dire que l’ajout de variables a diminué le résiduel (SSr) donc a augmenté le modèle (SSm)

  • Ces nouvelles variables expliquent donc plus de variance qu’au départ avec le modèle 1, notamment car le résiduel a été diminué.
19
Q

Si l’ajout de variables pourrait potentiellement expliquer le % de variance attribuable au modèle, alors pourquoi ne pas ajouter le plus de variables possibles pour expliquer le plus de variance?

A

Par l’ajout de chaque nouvelle variable, on augmente le degré de liberté. Ainsi, le carré moyen du modèle est affecté négativement.

Et, lorsque le carré moyen est affecté négativement, le ratio F est aussi affecté donc réduit.

20
Q

Interprétation

Le output SPSS présente les coefficients ci-dessous; Écrit la droite de régression pour les 3 prédicteurs du modèle 2

Bêtas non standardisés:
Modèle 1 :
- Constante = 134 140
- Budget = 0,09

Modèle 2:
- Constante = -26,613
- Budget = 0,085
- nombre de fois joué radio = 3,367
- Attirance au band = 11,086

A

Y = a + b1 + b2 + b3
Y = -26,613 + 0,085(x) + 3,367(x) + 11,086(x)

21
Q

Interprétation

Le output SPSS présente les coefficients ci-dessous; Que peux-tu dire sur l’ajout des variables dans le modèle 2?

Bêtas standardisés:
Modèle 1 :
- Budget = 0,578

Modèle 2:
- Budget = 0,511
- nombre de fois joué radio = 0,512
- Attirance au band = 0,192

A

Le budget et le nombre de fois joué à la radio apportent le même poids en terme de variance sur la vente de disques.

L’attirance au band, ajoute très peu de variance. Elle semble être la variable la moins importante.

23
Q

Pratique régression multiple

Que peux-tu dire sur la VI1 et la VI2 en rapport à la VD ?

VI1 VI2 VD
60 50 50
60 50 50
60 50 50
70 50 50
80 60 60
80 60 60

A
  • Il y a une corrélation parfaite entre la VD et la VI2
  • On voit que la VI2 prédit parfaitement la VD
  • La VI2 prédit donc mieux la VD que la VI1
24
Q

Pratique régression hiérarchique

Que peux-tu dire sur la variance expliqué par VI1 et la VI2 en rapport à la VD ?

VI1 VI2 VD
0 10 0
0 10 0
10 0 10
10 0 10
20 0 20
20 0 20
60 50 50
60 50 50
60 50 50
70 50 50
80 60 60
80 60 60

A

On voit que la VI2 corrige l’erreur de la VI1, donc elle explique l’erruer que la VI1 n’expliquait pas, ainsi la VI2 est un bon prédicteur à rajouter parce qu’il n’explique pas la même variance

25
Q

Pratique régression hiérarchique

Que peux-tu dire sur la VI1 et la VI3 en rapport à la VD ?

VI1 VI2 VD VI3
60 50 50 60
60 50 50 60
60 50 50 60
70 50 50 70
80 60 60 80
80 60 60 80

A

En ajoutant la VI3 comme prédicteur, on voit qu’elle explique la même variance que la VI1, donc la VI3 n’apporte strictement rien à ma variance expliquée

26
Q

Pratique régression hiérarchique

Dans mon tableau SPSS, sous la case “ R square change”, je vois la valeur de 0.00. Sous la case “Sig. F change” je vois 0.874

Qu’est-ce que cela m’indique ?

A

Si après avoir ajouté une seconde variable le “R square change” est à 0, cela indique que la variable n’a rien ajouter à notre VI1.

Le sig. F est donc non significatif

27
Q

Pratique régression hiérarchique

Que peux-tu dire sur la relation entre la VI3 et la VI1?

R : entre la VI1 et VI3 = 0.908

VI1 VI2 VD VI3
60 50 50 60
60 50 50 60
60 50 50 60
70 50 50 70
80 60 60 80
80 60 60 80

A

La VI1 et la VI3 sont très fortement corrélées ensemble, mais dans un contexte de régression hiérarchique, la VI3 calcul la même variance que la VI1

28
Q

Compréhension

En considérant ces données (Kg et Lb sont parfaitement corrélés) :

Beta non standardisé
Kg = 0.670 Constante = -25.500
Lb = 0.305 Constante = -25.500

Kg Lb Bonheur
50 110 50
60 132 50
70 154 50
80 176 50
90 198 60

Vrai ou faux : Lorsque je calculerai le niveau de bonheur à partir de 90Kg, ma valeur de Y calculée sera la même que pour 198Lbs ?

A

Vrai !

Même si le beta non standardisé n’est pas le même, puisqu’ils sont parfaitement corrélés ensemble, les valeurs de Y seront les mêmes.