Cours 8 - Régression linéaire multiple Flashcards

1
Q

Qu’est-ce qui distingue la régression linéaire multiple de la simple?

A

Dans les deux cas, on veut prédire une variable
MAIS, avec la régression multiple, on a plus qu’1 prédicteur (pls x)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quelle différence dans l’équation de la droite de régression dans la régression multiple?

A

Y^= b0 + b1X1 + b2X2 +… + bpXp

Y^= encore notre variance expliqué
b0 = l’ordonné à l’origine (valeur de Y quand toutes les variables prédictrices sont à 0)
b1 = coefficient de régression associé à la variable prédictrice 1 (coefficient qui correspond au coefficient de X1 seulement si on contrôle les autres variables prédictrices - si elles restent constantes)
X1 = notre première variable prédictrice

DONC, tous nos b = des coefficients de régression partiel

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Que veut-on dire par coefficient de régression partiel?

A

Dans la régression multiple, nos coefficients de régressions sont tous partiels, car ils doivent fonctionner ensemble
s’influencent tous entre eux
la variabilité de y va être influencé par toutes les variables prédictrices en même temps, donc besoin du coefficient de chaque variable prédictrice

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Comment visualiser le graphique de la régression linéaire multiple?

A

doit entrer en 3D quand on a + de 1 prédictrice

on prend chaque variable et on va chercher le score
1 point = score de toutes les variables en même temps

Notre axe des X est multiple

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Pourquoi utiliser le coefficient de régression standardisé dans la régression linéaire multiple?

A
  • Permettent de standardiser les coefficients de régression pour prendre en compte les écarts-types des variables
  • Uniformiser les échelles de mesures en plaçant la moyenne à 0 et ÉT 1 = on peut exprimer le coefficient en ÉT
  • Permet de comparer contribution respective de chaque prédictrice (car place les variables sur la même échelle)
  • Place notre ordonné à l’origine à 0
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Qu’est-ce que l’erreur-standard des coefficients de régression?

A
  • C’est un indice de la précision des coefficients de régression ( variabilité statistique sur un échantillonnage répété)
  • Ils sont donnés pour chacun des prédicteurs (SPSS)
  • C’est un estimé de l’erreur-type de la distribution d’échantillonnage
  • Ils permettent de faire des tests-t sur la valeur des coefficients de régression (t = bj / Sbj)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qu’est-ce que la variance résiduelle dans la régression multiple?

A

C’est l’erreur résiduelle
C’est la variabilité qui n’est pas expliquée par l’équation de régression
Donc, comme dans la régression simple, c’est la somme des valeurs observé - valeurs prédites mis au carré
En divisant par les dl, N – p – 1, nous obtenons la variance résiduelle ou le carré moyen de l’erreur (ou résiduel)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Qu’est-ce que le coefficient de régression multiple R?

A

C’est la corrélation entre, d’une part, la variable dépendante (Y) et, d’autre part, la meilleure combinaison linéaire des prédicteurs

C’est aussi la corrélation entre la variable dépendante Y et les valeurs prédites Y^

Nous parlons de corrélation multiple, car elle implique plus de deux variables

Mis au carré, R devient un pourcentage de variance expliquée (R2)
→ préférable d’utilisé un R2 ajusté, surtout avec petits échantillons, car non ajusté, c’est un estimateur biaisé

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quel test d’hypothèse on fait sur le R2 (régression multiple)?

A

Test pour voir si la corrélation de la régression multiple est plus grande que 0

Test F qui va prendre en compte :
1. le nnbr de paramètres
2. La grandeur d’échantillon

Très important, surtout dans la régression multiple

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Quels sont les modèle de régression qu’il est possible de choisir pour construire notre équation de régression?

A

Il existe différents tests pour vérifier les différents modèles de régression
Lorsque nous construisons une équation de régression, nous voulons généralement avoir le modèle le plus parcimonieux – un modèle qui offre la meilleure prédiction avec le plus petit nombre de prédicteurs

4 APPROCHES POSSIBLES
1. Directe : tous les prédicteurs sont dans l’équation en même temps
2. Forward : Le chercheur décide l’ordre d’entrée des variables et ajoute une variable à chaque régression
3. Backward : Le chercheur décide de l’ordre de sortie des variables, il enlève une variable à chaque régression calculée
4. Stepwise : À chaque étape une variable est entrée ou sortie du modèle selon un critère statistique

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quelles approches de construction de l’équation de régression sont les plus utilisées?

A

Enter et Stepwise

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Qu’est-ce qu’un critère d’ajustement?

A

C’est un critère qui permet de comparer différents modèles en prenant en compte le nombre de paramètres (variables) dans le modèle et l’ajustement du modèle (R2) afin de trouver le « meilleur » modèle
On les utilise donc beaucoup aussi pour aider à trouver le modèle le plus parcimonieux (pas juste utiliser les approches comme enter et stepwise

DONC, plus facile avec ça de choisir le modèle le plus parcimonieux

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Qu’est-ce que le AIC?

A

Akaike information criterion
AIC = 2k - 2ln(L)
k = nbr de prédicteurs
L = vraisemblance du modèle

Critère d’ajustement très populaire pour les modèles estimés par vraisemblance maximum
Mais, il est aussi utilisable avec les régressions multiples

ATTENTION, dans la méthode enter, tout est calculé en même temps, donc le AIC nous informe très peu sur le meilleur modèle
Par contre, dans le stepwise, on peut regarder le résultat du AIC pour chaque modèle calculé : plus la valeur est petite = plus le modèle est parcimonieux (celui qui expliquera le plus de variabilité)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quelles sont les conditions d’applications de la régression multiple?

A
  • Linéarité de la relation
  • Homoscédasticité / homogénéité des résidus
  • Indépendance des résidus
  • Normalité des erreurs : résidus
  • Absence de valeurs extrêmes
  • Absence de multicolinéarité (et de singularité)
  • Taille d’échantillon (N ≈ 40)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Lorsqu’on parle du postulat d’absence de multicolinéarité, que veut-on dire?
***

A

Si trop grande corrélation entre les variables : si corrélation de +.80 OU +.95 (singularité) entre 2 prédicteur
Un problème pour 3 raisons :
1. coefficients de régressions deviennent peu fiables
2. Limite la grandeur du du R (coefficient de corrélation multiple)
3. Absence de multicolinéarité important entre les prédicteurs pour vérifier les corrélations entre les prédicteurs (même construit)

BREF, moins de puissance et les résultats veulent pas dire grand chose

How well did you know this?
1
Not at all
2
3
4
5
Perfectly