6 - régression logistique 3 Flashcards
utilité de la sélection de variables
identifier les plus pertinentes car certaines sont redondantes et d’autres ont aucun rapport avec la variable dépendante
méthode qui guide sur la sélection de variables
méthode statistique
pourquoi la sélection de variables ?
- facilite l’interprétation des variables
- déploiement facilité (analyse par les logiciels)
- modèle a plus de chance d’être robuste
sur quoi le choix de variables repose-t-il?
- bonne connaissance scientifique du problème
- utilisation appropriée des méthodes statistiques
- connaissance de la littérature
choix de variables : comment avoir le meilleur modèle
- prise en considération des variables explicatives potentielles
- contrôle des variables confondantes
- résultats stables
conséquences s’il y a trop de variables dans le modèle
- perte de puissance
- sur-ajustement
conséquences s’il y a pas assez de variables dans le modèle
- possibilité de confusion résiduelle
- moins bonne adéquation du modèle
- interprétation plus facile
procédure pas à pas : méthode ascendante
- ajout de variable au modèle à chaque pas
- arrêt de la procédure quand toutes les variables sont intégrées ou quand p > seuil
procédure pas à pas : méthode descendante
- ajout de toutes les variables dans le modèle
- arrêt de la procédure quand toutes les variables sont retirées du modèle ou que p < seuil
procédure pas à pas : méthode progressive
- ajout de variable à chaque pas, mais on peut éliminer des variables déja introduites
- celles qui restent sont testées et la plus significative se rajoute à celle déja sélectionnée
- arrêt de la procédure lorsque toutes les variables sont intégrées ou p > seuil
- peuvent être retirées lorsqu’elles ne sont plus significatives après introduction de nouvelles variables (ex : leur p < 0,1 devient > 0,1 en ajoutant une autre variable)
v ou f : il arrive qu’on force des variables potentielles dans le modèle
v
sélection de variables : pourquoi le seuil n’est pas de 5%
on garde le seuil plus large car on n’évalue pas encore la variable test
mdl progressif : pourquoi forcer des variables
> On peut forcer des variables dans un mdl même si elles ne sont pas stats signif (possible qu’on n’ait pas de lien dans l’échantillon qu’on a)
Dans certains modèles de maladie, certaines variables sont obligatoirement ajoutées, malgré qu’on n’ait pas de liens
méthode pas à pas progressive : cmt une variable peut perdre sa significativité?
- si son effet était biaisé
- si la nouvelle variable était un facteur de confusion
que répresente les coefficient (B1, B2, etc)
l’effet
V ou F : en présence d’interaction, on peut se fier au coefficient pour voir l’effet
F, il faut calculer l’effet en fct de l’interaction
méthode de mesure de l’effet d’un groupe de variables
avec un test LRT (rapport de vraisemblance)
critères de choix du modèle
AIC et BIC
caractéristiques de AIC
- pénalise le nbr de paramètres
- on veut le modèle avec le AIC plus petit
- compromis entre le biais et la parcimonie
- moins applicable pour les petits échantillons (n/k < 40)
caractéristiques de BIC
- on évalue selon le nbr de paramètres et la taille d’échantillon
- on veut le modèle avec le BIC plus petit
parcimonie
nécessité de décrire les données avec le moins de paramètres possible
pourquoi faire la transformation de données
la supposition de linéarité n’est pas tjr rencontrée
AIC et BIC : leur utilité dans la transformation de données
permettre de sélectionner le mdl le plus proche de la réalité
IC et test statistique : cmt savoir si l’effet est statistiquement significatif
- selon le IC : ne doit pas contenir la valeur nulle (1) ou être trop large (manque de précision)
- selon le Pvalue : < 0,05
IC et test statistique : cmt savoir si l’effet est cliniquement significatif
selon le OR, doit être > 1
critère de choix du modèle qui est le plus parcimonieux
BIC