Rēgression multiple Flashcards
Vous réalisez une régression linéaire multiple selon une méthode d’entrée standard afin de prédire Y selon X1-X4.
Quel pourcentage de la variance de la VD (non-ajusté) est expliqué par la combinaison linéaire des prédicteurs?
Le R2 non-ajusté de la régression standard est de 0.298, soit 29.8% de la variance de Y est expliqué par la combinaison linéaire de X1 à X4
Quelle est la valeur de la statistique* qui permet de conclure que le pourcentage de variance de la Q1 est non-nul? * Attention : une p-valeur n’est pas une statistique, mais bien la probabilité d’observer une statistique sous Ho.
Le test F de la table d’ANOVA permet de vérifier si l’hypothèse nulle que R2 = 0 est vraisemblable. Ici, la statistique du test (soit le rapport F) prends la valeur de 12.205 et la probabilité d’observer cette statistique sous Ho est inférieur à 0.001, ce qui nous permet de conclure que le R2 est non-nul.
Pour la régression réalisée en Q1, quel est le coefficient de régression (brut) de la variable X1?
Le coefficient de régression brut de X1 est 7.158, ce qui indique une relation positive entre X1 et Y, en assumant que les autres relations ne varient pas. Plus concrètement, Y augmente en moyenne de 7.158 unités pour chaque augmentation d’une unité de X1
Selon la régression réalisée en Q1, quel prédicteur a la contribution la plus importante à la prédiction de Y?
X4 présente le beta le plus élevé (les B ne sont pas comparables car non-standardisés) de -0.350. La corrélation semi-partielle supporte la même conclusion
Selon la régression réalisée en Q1, quel pourcentage de variance unique de la VD est attribuable au prédicteur X2?
La corrélation semi-partielle du prédicteur X2 est de -0.122. Pour obtenir un pourcentage de variance, on doit la mettre au carré, ce qui donne un sr2 = 0.0149, soit 1.49% de la variance de Y est uniquement attribuable à X2.
Selon la régression réalisée en Q1, quel prédicteur présente la collinéarité la plus importante (même si aucune n’est problématique)?
X1 présente le VIF le plus élevée = 1.143 (ou la tolérance la plus faible = 0.875). Les deux indices supportent la même conclusion.
Vous testez maintenant le même modèle de régression multiple, mais selon une méthode d’entrée pas-à-pas (stepwise). Quel est le second prédicteur qui est retenu dans la régression?
Le premier prédicteur retenu est X1 et le second est X4.
Selon la régression stepwise (Q7), à partir de quel seuil de signification un troisième prédicteur aurait pu être inclus dans le modèle final?
Dans le tableau sur les variables exclues, le test statistique associé à la signification du coefficient de régression du troisième prédicteur (X2) présente une p-value de 0.135. Donc, ce prédicteur aurait été inclus dans la régression stepwise si le seuil d’entrée serait augmenté à 0.15.
Selon la régression stepwise, quel pourcentage de variance unique de Y est attribuable à ce second prédicteur?
La variation du R2 associé au second prédicteur est de 0.116, c.a.d. que 11.6% de la variance additionnelle de Y est explicable par l’ajout de X4.
Dans un modèle de régression multiple à 5 prédicteurs, à partir de quelle valeur critique de la distance de Mahalanobis une observation est-elle déclarée une donnée extrême multivariée significative selon un seuil alpha de 0.001?
Selon un seuil alpha = 0.001 et 5 degrés de liberté, la valeur critique de la table du khi-carré est de 20.5. Donc, toute observation avec une distance de Mahalanobis supérieure à 20.5 est déclarée “outlier multivarié”.