Cours 8 - Régression linéaire multiple Flashcards

Question 1

Q

Qu’est-ce qui distingue la régression linéaire multiple de la simple?

Answer

A

Dans les deux cas, on veut prédire une variable
MAIS, avec la régression multiple, on a plus qu’1 prédicteur (pls x)

Question 2

Q

Quelle différence dans l’équation de la droite de régression dans la régression multiple?

Answer

A

Y^= b0 + b1X1 + b2X2 +… + bpXp

Y^= encore notre variance expliqué
b0 = l’ordonné à l’origine (valeur de Y quand toutes les variables prédictrices sont à 0)
b1 = coefficient de régression associé à la variable prédictrice 1 (coefficient qui correspond au coefficient de X1 seulement si on contrôle les autres variables prédictrices - si elles restent constantes)
X1 = notre première variable prédictrice

DONC, tous nos b = des coefficients de régression partiel

Question 3

Q

Que veut-on dire par coefficient de régression partiel?

Answer

A

Dans la régression multiple, nos coefficients de régressions sont tous partiels, car ils doivent fonctionner ensemble
s’influencent tous entre eux
la variabilité de y va être influencé par toutes les variables prédictrices en même temps, donc besoin du coefficient de chaque variable prédictrice

Question 4

Q

Comment visualiser le graphique de la régression linéaire multiple?

Answer

A

doit entrer en 3D quand on a + de 1 prédictrice

on prend chaque variable et on va chercher le score
1 point = score de toutes les variables en même temps

Notre axe des X est multiple

Question 5

Q

Pourquoi utiliser le coefficient de régression standardisé dans la régression linéaire multiple?

Answer

A

Permettent de standardiser les coefficients de régression pour prendre en compte les écarts-types des variables
Uniformiser les échelles de mesures en plaçant la moyenne à 0 et ÉT 1 = on peut exprimer le coefficient en ÉT
Permet de comparer contribution respective de chaque prédictrice (car place les variables sur la même échelle)
Place notre ordonné à l’origine à 0

Question 6

Q

Qu’est-ce que l’erreur-standard des coefficients de régression?

Answer

A

C’est un indice de la précision des coefficients de régression ( variabilité statistique sur un échantillonnage répété)
Ils sont donnés pour chacun des prédicteurs (SPSS)
C’est un estimé de l’erreur-type de la distribution d’échantillonnage
Ils permettent de faire des tests-t sur la valeur des coefficients de régression (t = bj / Sbj)

Question 7

Q

Qu’est-ce que la variance résiduelle dans la régression multiple?

Answer

A

C’est l’erreur résiduelle
C’est la variabilité qui n’est pas expliquée par l’équation de régression
Donc, comme dans la régression simple, c’est la somme des valeurs observé - valeurs prédites mis au carré
En divisant par les dl, N – p – 1, nous obtenons la variance résiduelle ou le carré moyen de l’erreur (ou résiduel)

Question 8

Q

Qu’est-ce que le coefficient de régression multiple R?

Answer

A

C’est la corrélation entre, d’une part, la variable dépendante (Y) et, d’autre part, la meilleure combinaison linéaire des prédicteurs

C’est aussi la corrélation entre la variable dépendante Y et les valeurs prédites Y^

Nous parlons de corrélation multiple, car elle implique plus de deux variables

Mis au carré, R devient un pourcentage de variance expliquée (R2)
→ préférable d’utilisé un R2 ajusté, surtout avec petits échantillons, car non ajusté, c’est un estimateur biaisé

Question 9

Q

Quel test d’hypothèse on fait sur le R2 (régression multiple)?

Answer

A

Test pour voir si la corrélation de la régression multiple est plus grande que 0

Test F qui va prendre en compte :
1. le nnbr de paramètres
2. La grandeur d’échantillon

Très important, surtout dans la régression multiple

Question 10

Q

Quels sont les modèle de régression qu’il est possible de choisir pour construire notre équation de régression?

Answer

A

Il existe différents tests pour vérifier les différents modèles de régression
Lorsque nous construisons une équation de régression, nous voulons généralement avoir le modèle le plus parcimonieux – un modèle qui offre la meilleure prédiction avec le plus petit nombre de prédicteurs

4 APPROCHES POSSIBLES
1. Directe : tous les prédicteurs sont dans l’équation en même temps
2. Forward : Le chercheur décide l’ordre d’entrée des variables et ajoute une variable à chaque régression
3. Backward : Le chercheur décide de l’ordre de sortie des variables, il enlève une variable à chaque régression calculée
4. Stepwise : À chaque étape une variable est entrée ou sortie du modèle selon un critère statistique

Question 11

Q

Quelles approches de construction de l’équation de régression sont les plus utilisées?

Answer

A

Enter et Stepwise

Question 12

Q

Qu’est-ce qu’un critère d’ajustement?

Answer

A

C’est un critère qui permet de comparer différents modèles en prenant en compte le nombre de paramètres (variables) dans le modèle et l’ajustement du modèle (R2) afin de trouver le « meilleur » modèle
On les utilise donc beaucoup aussi pour aider à trouver le modèle le plus parcimonieux (pas juste utiliser les approches comme enter et stepwise

DONC, plus facile avec ça de choisir le modèle le plus parcimonieux

Question 13

Q

Qu’est-ce que le AIC?

Answer

A

Akaike information criterion
AIC = 2k - 2ln(L)
k = nbr de prédicteurs
L = vraisemblance du modèle

Critère d’ajustement très populaire pour les modèles estimés par vraisemblance maximum
Mais, il est aussi utilisable avec les régressions multiples

ATTENTION, dans la méthode enter, tout est calculé en même temps, donc le AIC nous informe très peu sur le meilleur modèle
Par contre, dans le stepwise, on peut regarder le résultat du AIC pour chaque modèle calculé : plus la valeur est petite = plus le modèle est parcimonieux (celui qui expliquera le plus de variabilité)

Question 14

Q

Quelles sont les conditions d’applications de la régression multiple?

Answer

A

Linéarité de la relation
Homoscédasticité / homogénéité des résidus
Indépendance des résidus
Normalité des erreurs : résidus
Absence de valeurs extrêmes
Absence de multicolinéarité (et de singularité)
Taille d’échantillon (N ≈ 40)

Question 15

Q

Lorsqu’on parle du postulat d’absence de multicolinéarité, que veut-on dire?
***

Answer

A

Si trop grande corrélation entre les variables : si corrélation de +.80 OU +.95 (singularité) entre 2 prédicteur
Un problème pour 3 raisons :
1. coefficients de régressions deviennent peu fiables
2. Limite la grandeur du du R (coefficient de corrélation multiple)
3. Absence de multicolinéarité important entre les prédicteurs pour vérifier les corrélations entre les prédicteurs (même construit)

BREF, moins de puissance et les résultats veulent pas dire grand chose

Cours 8 - Régression linéaire multiple Flashcards

(15 cards)