Régression linéaire Flashcards
Quels sont les postulats fondamentaux de la régression linéaire selon Andy Field ?
Normalité des résidus, linéarité, homoscédasticité, indépendance des erreurs, absence de multicolinéarité.
Quel graphique permet de vérifier la linéarité entre une VI et la VD ?
Un scatterplot des valeurs observées versus prédites.
Comment vérifier la normalité des résidus dans une régression ?
À l’aide d’un histogramme des résidus, d’un tracé Q-Q ou d’un test de Kolmogorov-Smirnov sur les résidus.
Qu’est-ce que la multicolinéarité et pourquoi est-elle problématique ?
C’est quand deux VI sont très corrélées entre elles, ce qui rend difficile l’interprétation de leurs effets individuels.
Quel indicateur permet de détecter la multicolinéarité ?
Le VIF (Variance Inflation Factor). Un VIF > 5 (ou > 10 selon les auteurs) indique un problème potentiel.
Qu’est-ce qu’un résidu ?
C’est la différence entre la valeur observée et la valeur prédite par le modèle.
Pourquoi utiliser la méthode des moindres carrés ?
Pour minimiser la somme des carrés des résidus, assurant une estimation optimale des coefficients.
Qu’est-ce que Cook’s distance ?
Une mesure de l’influence d’un point sur les coefficients de régression. Une valeur > 1 indique une observation très influente.
Qu’est-ce qu’un outlier dans une régression ?
Une observation dont le score s’éloigne fortement de la tendance générale.
Quelle est la signification d’un R² = .45 ?
45 % de la variance de la VD est expliquée par la ou les variables indépendantes.
Que signifie un B non significatif dans une régression ?
Que la VI ne contribue pas de façon significative à la prédiction de la VD.
Quelle est la différence entre B et β dans une régression ?
B est le coefficient brut (non standardisé), β est le coefficient standardisé.
Qu’est-ce que l’homoscédasticité ?
La variance des résidus est constante pour toutes les valeurs prédictives.
Comment détecter une hétéroscédasticité ?
À l’aide d’un scatterplot des résidus standardisés vs valeurs prédictives.
Que faire si les résidus ne sont pas homoscédastiques ?
Utiliser des erreurs-types robustes ou transformer la variable dépendante.
Pourquoi centrer les variables dans une régression multiple ?
Pour réduire la multicolinéarité, surtout si on inclut une interaction.
Que signifie un test de Durbin-Watson < 1.5 ?
Il y a probablement une autocorrélation positive des erreurs.
Quelle est la valeur idéale du test de Durbin-Watson ?
Environ 2.0. Entre 1.5 et 2.5 est généralement acceptable.
Dans quel cas la transformation log peut-elle être utile ?
Lorsque la VD est fortement asymétrique ou que la relation avec la VI est non linéaire.
Qu’est-ce qu’un modèle hiérarchique ?
Un modèle dans lequel les prédicteurs sont introduits en blocs pour tester leur contribution relative.
Comment interpréter une interaction non significative dans un modèle avec deux VI ?
Il n’y a pas de modulation de l’effet d’une VI par l’autre.
Peut-on faire une régression avec une VD dichotomique ?
Non, il faut utiliser une régression logistique.
Quelle est la conséquence d’une variable fortement influente non détectée ?
Elle peut fausser les coefficients et les rendre non généralisables.
Quand utiliser la régression linéaire simple ?
Quand on a une seule variable indépendante continue.