Biomédecine Quantitative: régression linéaire multiple Flashcards
quels sont les 5 risques de la méthode multivariée?
- si Y peu lié aux X: faible pouvoir explicatif du modèle (R²)
- si trop de variables explicatives X: risque de surajustement (parcimonie)
- si variables X trop corrélées entre elles: modèle instable
- si relation des X sur Y non linéaire: modèle inadapté
- si présence d’individus trop influents : estimation du modèle faussée (distance Cook)
pour les résultats d’une régression, les variables Xi ont un effet significatif si p< à?
p<5%
qu’est-ce que intercept?
l’ordonnée à l’origine (b0) = vaut toujours 1 (constante)
qu’est-ce que la notion de parcimonie? quels est le critère de parcimonie?
on cherche à avoir un R² le + élevé possible mais avec de variables X possibles
AIC (+ il est bas, mieux c’est)
la distance de Cook évalue quoi (calculée pour chaque individu)?
la différence entre la régression réalisée et une régression réalisée en supprimant cet individu (distance élevée = point influent: on peut supprimer les individus trop influents)
quelle est la formule pour la variable à expliquer Y?
Y = b0 + b1.X1 + b2.X2 + b3.X3 (+erreur)
qu’est-ce que le problème de la multicolinéarité?
plusieurs variables extrêmement corrélées entre elles (choisir de garder qu’une seule ou laisser la machine choisir les variables avec procédure pas à pas “stepwise”)
un coefficient non significatif veut-il dire absence de relation linéaire? une variable avec un coefficient non significatif est-elle forcément indépendante?
non
non
le nombre de variables explicatives doit-il être supérieur ou égal au nombre d’individus?
non
dans le cas d’un modèle à trois variables explicatives X1, X2 et X3, les résidus sont la différence entre…?
Y et Yp (b + a1.X1 + a2.X2 + a3.X3)
les coefficients (a) retournés par le modèle peuvent être facilement interprétés après transformation exponentielle (eª)?
non: faux