CM 2 et TD 2-3 : Régression multiple Flashcards
Qu’est-ce qu’une régression multiple?
La régression multiple est une extension de la régression simple qui inclut plusieur prédicteurs. Contrairement à la régression simple qui n’a qu’un seul prédicteur, la régression multiple permet d’analyser l’effet combiné de plusieurs variables explicatives sur une variable dépendante
L’équation de la régression multiple contient plusieurs paramètres (b1, b2, b3, etc).
Y=β0+β1X1+β2X2+β3X3+⋯+βnXn+ε
- y = VD
- ß0 = intercept
- ß1, ß2, ß3 … = regression coefficients
- X1, X2, X3 … = VI
On conserve un seul indice R et un seul indice R²,appréciant toujours la qualité de la prédiction/du modèle.
Qu’est-ce que la multicolinéarité?
La multicolinéarité décrit le fait que les prédicteurs du modè le présentent de fortes corrélations entre eux. Ceci traduit une forte redondance entre les prédicteurs qui peut être problématique à un niveau théorique et statistique.
Théoriquement cela veut dire que certains prédicteurs mesurent à peu près la même chose, donc on peut questionner la pertinence théorique de les inclure ensemble dans le modèle.
Au niveau statistique, une multicolinéarité prononcée est problématique car elle risque de rendre les coefficients de régression instables et difficile à interpréter. Par exemple, les coefficients de prédicteurs fortement corrélés vont varier de façon importante d’un échantillon à un autre.
On utilise deux indices pour étudier la multicolinéarité :
- Tolérance : la part de variance d’un Prédicteur qui n’est pas expliquée par les autres prédicteurs du modèle (ce qui est unique au prédicteur).
- VIF (variance inflation factor) : mesure l’impact de la multicolinéarité sur les estimations des coefficients de régression du modèle. Un VIF élevé indique une forte instabilité des coefficients de régression. VIF = 1 / Tolérance
On estime qu’il y a un _problème de multicolinéarité si _: Tolérance < 0.10 ou VIF >10.
Pourquoi veut-on centrer les variables lorsqu’on fait une regression?
L’intercept représente la valeur prédite de la VD lorsque toutes les variables explicatives sont 0. Cependant, certaines variables ne peuvent pas réellement être égales à 0 (ex. âge).
La solution est de centrer les variables , c-à-d de soustraire la moyenne de la variable (facteur - moyenne), ce qui rend l’intercept plus interprétable.
- ß0 est maintenant la valeur prédite de la VD pour la moyenne de ß1, ß2, etc.
Qu’est-ce qu’une régression avec une variable explicative catégorielle binaire?
La régression avec une variable explicative binaire est une forme de régression où le prédicteur est une variable catégorielle qui ne peut prendre que deux valeurs (0 ou 1, par exemple). Cela nous donne ainsi les moyennes des deux groupes de participants.
“Lorsque l’on augmente d’une unité sur la variable X1, le score prédit pour VD augmente de [ß1] points” :
Y = ß0 + ß1X1
Qu’est-ce que une régression avec une variable binaire et une variable numérique?
La régression avec une variable binaire et une variable numérique est une extension de la régression multiple qui combine une variable explicative binaire (catégorielle à deux modalités) et une variable explicative numérique (continue).
Exemples pour la variable explicative numérique :
“Chaque fois que la X1 augmente de 1, la X2 étant maintenue constante, la VD augmente de ß1, avec un IC95% [min, max]. Cet effet est significatif, t(ddl Residual)=t, p <.001”
Exemple pour la variable explicative binaire :
“Lorsqu’on augmente d’une unité sur la X2, la X1 étant maintenue constante, la VD augmente de ß2, avec un IC95% [min, max]. Cet effet n’est pas significatif, t(ddl Residual)= t, p = []”.
Comment est le ddl calculé dans une regression?
ddl Regression = nombre de VI
ddl Residual = Nb de l’échantillon – (Nb de VI + 1)
Comment explique-t-on verbalement une regression multiple?
Exemple avec 3 prédicteurs :
- “Chaque fois que la variable [X1] augmente de 1, les variables [X2] et [X3] étant maintenues constantes, le [VD] augmente de [ß1], avec un IC95% [min, max].
Si l’effet est significatif et si on utilise le test t :
- “Le test t associé est significatif et permet donc de rejeter l’hypothèse d’une absence de liaison entre [VD] et [X1], t(ddl Résidual) = [t], p < .001”
Si l’effet est non significatif :
- “Le test t associé est non significatif donc on ne peut conclure à l’existence d’une liaison entre la variable explicative [X1] et la [VD] dans la population parente, t(ddl Résidual) = [t], p = []”
ddl résidual = Nb de l’échantillon - (Nb de VI + 1)