Régression multiple Flashcards
Quel est le but de la régression multiple?
Évaluer le degré de relation entre plusieurs prédicteurs et la VD
Combien de variables y-a-t-il en régression multiple?
Au moins 2 VI/prédicteurs et 1 VD/critère
Comment sont les VI en régression multiple?
D’échelle continue ou nominale dichotomique (dummy/factice)
Comment est la VD en régression multiple?
Continue!!!
*Si dichotomique = régression logistique (pas dans cours)
Que se passe-t-il lorsqu’on ajoute des variables prédictives?
On augmente la précision de l’estimation de la VD en diminuant la variance inexpliquée
Quelles sont les deux étapes principales de la régression multiple?
- Déterminer la variance expliquée par l’ensemble des VI (R et R2)
- Déterminer quels sont les prédicteurs significatifs
Quelle est l’équation de la régression linéaire SIMPLE?
Ŷ= a + bX
Ŷ: VD critère prédite
X: prédicteur
b: pente de la droite de régression
a: ordonnée à l’origine
Qu’est-ce qu’un résidu dans la droite de régression?
Distance entre point (score observé) et ligne (score prédit): Y - Ŷ
Quelle est l’équation de la régression multiple?
Ŷ = a + b1X1 + b2X2 + … +bpXp
p: nombre de prédicteurs
**Inclure pente et X de chaque prédicteur
Comment est formulée l’hypothèse de la régression multiple?
H1: Au moins 1 B diffère de zéro
H0: Aucun B diffère de zéro
*Mais possible d’en faire une pour chaque prédicteur (ex: la faible proximité est liée à un plus grand degré d’insatisfaction conjugale)
En sciences humaines, environ combien de % maximum est expliqué par un prédicteur?
30-40%
Quels sont les postulats à vérifier pour la régression multiple?
1.Taille de l’échantillon
2. Absence de multicolinéarité
3. Normalité des résidus
4. Absence de valeur extrême multivariée
5. Homoscédasticité et linéarité des résidus
Comment vérifie-t-on le postulat de la taille de l’échantillon?
Taille doit être suffisante pour le nombre de prédicteurs (p)
-Calcul dans G*power à priori
OU
-N > 20 x p (tabarchnick et fidel)
Comment vérifie-t-on le postulat de l’absence de multicolinéarité et de singularité?
Dans le tableau de corrélations dans SPSS:
s’assurer que les VI ne sont pas trop corrélées entre elles (r plus petit que 0,7)
-Rapporter la plus basse et la plus haute (montre que tous en dessous de 0,7)
*absence de singularité (PAS r = 1)
**Solution: éliminer une variable si 2 sont trop semblables
Comment vérifie-t-on le postulat de normalité des résidus?
APRÈS L’ANALYSE!
Crée variable ZRES_ pendant l’analyse et faire normalité après
Comment vérifie-t-on le postulat de l’absence de valeur extrême multivariée?
Pour s’assurer qu’il n’y a pas de valeurs extrêmes:
Convention: Distance de Cook (VI et VD)
-S’assurer que valeur MAX < 1 (si plus grande, tester sans car peut changer l’analyse)
SINON faire les deux:
-Résidus standardisés (VD: s’assurer que min et max dépasse pas 3)
-Bras de levier (VI: s’assurer que MAX < 3(p+1)/N)
Comment vérifie-t-on le postulat d’homoscédasticité et linéarité des résidus?
Vérifie que la relation entre VD prédite et résidus est linéaire et égale tout au long de la droite
*À l’aide d’un diagramme, on cherche un biscuit au chocolat des résidus standardisés (ZRESID) autour des scores prédits standardisés (ZPRED)
Comment vérifie-t-on le postulat d’homoscédasticité et linéarité des résidus?
Vérifie que la relation entre VD prédite et résidus est linéaire et égale tout au long de la droite
*À l’aide d’un diagramme, on cherche un biscuit au chocolat des résidus standardisés (ZRESID) autour des scores prédits standardisés (ZPRED)
En quoi consiste le R?
Coefficient de corrélation multiple (pas utile)
En quoi consiste le R2?
Coefficient de détermination (R2): exprime le % de variance expliquée par l’ensemble des prédicteurs
*R2 ajusté est moins biaisé = prioriser
*5% de variation bien en psycho
À quoi sert le test F dans la régression multiple?
Teste H0 omnibus (tous les B = 0): permet de déterminer si la variance expliquée par VI est supérieure à la variance inexpliquée
*Si au moins 1 B diffère de 0 = rejet H0
**On interprète pas le F
À quoi sert le test t dans la régression multiple?
Tester la signification (p < 0,05) de chaque prédicteur
*Utilise B standardisé pour l’interprétation
Que faisons-nous après avoir déterminé les prédicteurs significatifs de la régression multiple?
Il faut calculer le % de variance unique de chaque prédicteur sig:
-Taille de l’effet: trouver la corrélation semi-partielle et mettre au carré (sr2)
Sur quoi repose la décision statistique de l’analyse de régression (globalement)?
Sur le test F!! Si significatif = au moins 1 prédicteur qui diffère de 0 (rejet H0)
Que devons-nous inclure dans la rédaction de la régression multiple?
-Notation F: F(ddl) = 123, p < 0,005
-R2aj = 0,123 (12% de variance expliqué)
-Coefficients de régression de X (B = 123, p < 0,001, sr2 = 123)
*rapporte aussi b et p des prédicteurs non significatifs mais pas sr2
Vrai ou faux: les prédicteurs prédisent le critère?
FAUX!! Ce n’est pas une causalité, c’est un lien DONC peut dire qu’associé ou relié
Que signifie un bêta négatif?
Signifie que la relation va dans le sens contraire
En quoi consiste la régression multiple standard?
-Les variables sont entrées simultanément dans l’analyse
-Permet de connaître % de variance UNIQUE (sr2) de chaque VI = sait la contribution de chaque VI
En quoi consiste la régression multiple hiérarchique (séquentielle)?
Variables sont entrées selon un ordre prédéterminé par le chercheur:
a) Variables contrôles puis variables à l’étude OU
b) Variables plus importantes puis secondaires OU
c) Variables documentées puis nouvelle variable
**Permet de voir le % de variance expliqué ajouté par la 2e VI
En quoi consiste la régression multiple statistique?
SPSS décide de l’ordre d’entrée des données sur la base des données (par sélection, par élimination, pas à pas)
*Plus en exploratoire
**Minimum 40 participants par VI