6 - régression logistique 3 Flashcards
utilité de la sélection de variables
identifier les plus pertinentes car certaines sont redondantes et d’autres ont aucun rapport avec la variable dépendante
méthode qui guide sur la sélection de variables
méthode statistique
pourquoi la sélection de variables ?
- facilite l’interprétation des variables
- déploiement facilité (analyse par les logiciels)
- modèle a plus de chance d’être robuste
sur quoi le choix de variables repose-t-il?
- bonne connaissance scientifique du problème
- utilisation appropriée des méthodes statistiques
- connaissance de la littérature
choix de variables : comment avoir le meilleur modèle
- prise en considération des variables explicatives potentielles
- contrôle des variables confondantes
- résultats stables
conséquences s’il y a trop de variables dans le modèle
- perte de puissance
- sur-ajustement
conséquences s’il y a pas assez de variables dans le modèle
- possibilité de confusion résiduelle
- moins bonne adéquation du modèle
- interprétation plus facile
procédure pas à pas : méthode ascendante
- ajout de variable au modèle à chaque pas
- arrêt de la procédure quand toutes les variables sont intégrées ou quand p > seuil
procédure pas à pas : méthode descendante
- ajout de toutes les variables dans le modèle
- arrêt de la procédure quand toutes les variables sont retirées du modèle ou que p < seuil
procédure pas à pas : méthode progressive
- ajout de variable à chaque pas, mais on peut éliminer des variables déja introduites
- celles qui restent sont testées et la plus significative se rajoute à celle déja sélectionnée
- arrêt de la procédure lorsque toutes les variables sont intégrées ou p > seuil
- peuvent être retirées lorsqu’elles ne sont plus significatives après introduction de nouvelles variables (ex : leur p < 0,1 devient > 0,1 en ajoutant une autre variable)
v ou f : il arrive qu’on force des variables potentielles dans le modèle
v
sélection de variables : pourquoi le seuil n’est pas de 5%
on garde le seuil plus large car on n’évalue pas encore la variable test
mdl progressif : pourquoi forcer des variables
> On peut forcer des variables dans un mdl même si elles ne sont pas stats signif (possible qu’on n’ait pas de lien dans l’échantillon qu’on a)
Dans certains modèles de maladie, certaines variables sont obligatoirement ajoutées, malgré qu’on n’ait pas de liens
méthode pas à pas progressive : cmt une variable peut perdre sa significativité?
- si son effet était biaisé
- si la nouvelle variable était un facteur de confusion
que répresente les coefficient (B1, B2, etc)
l’effet