Cours 8 - Régression linéaire multiple Flashcards
Qu’est-ce qui distingue la régression linéaire multiple de la simple?
Dans les deux cas, on veut prédire une variable
MAIS, avec la régression multiple, on a plus qu’1 prédicteur (pls x)
Quelle différence dans l’équation de la droite de régression dans la régression multiple?
Y^= b0 + b1X1 + b2X2 +… + bpXp
Y^= encore notre variance expliqué
b0 = l’ordonné à l’origine (valeur de Y quand toutes les variables prédictrices sont à 0)
b1 = coefficient de régression associé à la variable prédictrice 1 (coefficient qui correspond au coefficient de X1 seulement si on contrôle les autres variables prédictrices - si elles restent constantes)
X1 = notre première variable prédictrice
DONC, tous nos b = des coefficients de régression partiel
Que veut-on dire par coefficient de régression partiel?
Dans la régression multiple, nos coefficients de régressions sont tous partiels, car ils doivent fonctionner ensemble
s’influencent tous entre eux
la variabilité de y va être influencé par toutes les variables prédictrices en même temps, donc besoin du coefficient de chaque variable prédictrice
Comment visualiser le graphique de la régression linéaire multiple?
doit entrer en 3D quand on a + de 1 prédictrice
on prend chaque variable et on va chercher le score
1 point = score de toutes les variables en même temps
Notre axe des X est multiple
Pourquoi utiliser le coefficient de régression standardisé dans la régression linéaire multiple?
- Permettent de standardiser les coefficients de régression pour prendre en compte les écarts-types des variables
- Uniformiser les échelles de mesures en plaçant la moyenne à 0 et ÉT 1 = on peut exprimer le coefficient en ÉT
- Permet de comparer contribution respective de chaque prédictrice (car place les variables sur la même échelle)
- Place notre ordonné à l’origine à 0
Qu’est-ce que l’erreur-standard des coefficients de régression?
- C’est un indice de la précision des coefficients de régression ( variabilité statistique sur un échantillonnage répété)
- Ils sont donnés pour chacun des prédicteurs (SPSS)
- C’est un estimé de l’erreur-type de la distribution d’échantillonnage
- Ils permettent de faire des tests-t sur la valeur des coefficients de régression (t = bj / Sbj)
Qu’est-ce que la variance résiduelle dans la régression multiple?
C’est l’erreur résiduelle
C’est la variabilité qui n’est pas expliquée par l’équation de régression
Donc, comme dans la régression simple, c’est la somme des valeurs observé - valeurs prédites mis au carré
En divisant par les dl, N – p – 1, nous obtenons la variance résiduelle ou le carré moyen de l’erreur (ou résiduel)
Qu’est-ce que le coefficient de régression multiple R?
C’est la corrélation entre, d’une part, la variable dépendante (Y) et, d’autre part, la meilleure combinaison linéaire des prédicteurs
C’est aussi la corrélation entre la variable dépendante Y et les valeurs prédites Y^
Nous parlons de corrélation multiple, car elle implique plus de deux variables
Mis au carré, R devient un pourcentage de variance expliquée (R2)
→ préférable d’utilisé un R2 ajusté, surtout avec petits échantillons, car non ajusté, c’est un estimateur biaisé
Quel test d’hypothèse on fait sur le R2 (régression multiple)?
Test pour voir si la corrélation de la régression multiple est plus grande que 0
Test F qui va prendre en compte :
1. le nnbr de paramètres
2. La grandeur d’échantillon
Très important, surtout dans la régression multiple
Quels sont les modèle de régression qu’il est possible de choisir pour construire notre équation de régression?
Il existe différents tests pour vérifier les différents modèles de régression
Lorsque nous construisons une équation de régression, nous voulons généralement avoir le modèle le plus parcimonieux – un modèle qui offre la meilleure prédiction avec le plus petit nombre de prédicteurs
4 APPROCHES POSSIBLES
1. Directe : tous les prédicteurs sont dans l’équation en même temps
2. Forward : Le chercheur décide l’ordre d’entrée des variables et ajoute une variable à chaque régression
3. Backward : Le chercheur décide de l’ordre de sortie des variables, il enlève une variable à chaque régression calculée
4. Stepwise : À chaque étape une variable est entrée ou sortie du modèle selon un critère statistique
Quelles approches de construction de l’équation de régression sont les plus utilisées?
Enter et Stepwise
Qu’est-ce qu’un critère d’ajustement?
C’est un critère qui permet de comparer différents modèles en prenant en compte le nombre de paramètres (variables) dans le modèle et l’ajustement du modèle (R2) afin de trouver le « meilleur » modèle
On les utilise donc beaucoup aussi pour aider à trouver le modèle le plus parcimonieux (pas juste utiliser les approches comme enter et stepwise
DONC, plus facile avec ça de choisir le modèle le plus parcimonieux
Qu’est-ce que le AIC?
Akaike information criterion
AIC = 2k - 2ln(L)
k = nbr de prédicteurs
L = vraisemblance du modèle
Critère d’ajustement très populaire pour les modèles estimés par vraisemblance maximum
Mais, il est aussi utilisable avec les régressions multiples
ATTENTION, dans la méthode enter, tout est calculé en même temps, donc le AIC nous informe très peu sur le meilleur modèle
Par contre, dans le stepwise, on peut regarder le résultat du AIC pour chaque modèle calculé : plus la valeur est petite = plus le modèle est parcimonieux (celui qui expliquera le plus de variabilité)
Quelles sont les conditions d’applications de la régression multiple?
- Linéarité de la relation
- Homoscédasticité / homogénéité des résidus
- Indépendance des résidus
- Normalité des erreurs : résidus
- Absence de valeurs extrêmes
- Absence de multicolinéarité (et de singularité)
- Taille d’échantillon (N ≈ 40)
Lorsqu’on parle du postulat d’absence de multicolinéarité, que veut-on dire?
***
Si trop grande corrélation entre les variables : si corrélation de +.80 OU +.95 (singularité) entre 2 prédicteur
Un problème pour 3 raisons :
1. coefficients de régressions deviennent peu fiables
2. Limite la grandeur du du R (coefficient de corrélation multiple)
3. Absence de multicolinéarité important entre les prédicteurs pour vérifier les corrélations entre les prédicteurs (même construit)
BREF, moins de puissance et les résultats veulent pas dire grand chose