Régression logistique multiple (2) Flashcards
sélection des variables est une étape clé de la modélisation
la méthode statistique doit nous donner des indications sur ?
le sous-ensemble des bonnes variables à inclure dans le modèle
Pourquoi la sélection des variables ? (3)
- moins il y aura de variables, plus facile sera l’interprétation
- déploiement sera facilité
- un modèle avec peu de variables a de meilleures chances d’être plus robuste en généralisation
choix des variables repose sur (3)
- bonne connaissance scientifique du problème
- utilisation approporiée des méthodes statistiques
- une connaissance de la littérature
Objectif est d’avoir le meilleur modèle qui répond à notre q? d’intérêt (3)
- prise en considération des variables explicatives potentielles
- controle des variables confondantes
- résultats stables
Conséquences de plusieurs variables dans le modèle (2)
- perte de puissance
- sur-ajustement
Conséquences de pas assez de variables prises e considération (3)
- possibilité de confusion résiduelle
- moins bonne adéquation du modèle
- interprétation plus facile
Procédures pas à pas
2
- méthode pas à pas ascendante (forward selection)
- méthode pas à pas descendante (backward selection)
Forward selection (2)
- à chaque pas , une variable est ajoutée au modèle
- procédure s’arrête lorsque toutes les variables sont intégrées ou lorsque la valeur p est plus grande qu’une valeur seuil (souvent choisi égal à 0 1)
backward selection (2)
- à la première étape toutes les variables sont intégrées au modèle
- la procédure s’arrête lorsque toutes les variables sont retirées du modèle ou lorsque la valeur p est plus petite qu’une valeur seuil
Méthode progressive (stepwise selection)
force des variables potentielles ?
same que méthode pas à pas ascendante , sauf que l’on peut éliminer des variables déja introduites. En effet, il peut arriver que des variables introduites au début ne soient plus significatives après introduction de nouvelles variables
-cas où l’âge est une variable évidente pr le cancer, mais l’âgen’est pas décrit ds notre pop, on va forcer la variable anyway
Effet d’un groupe de variables
modèle global :
logit(pi(x) : b0 +b1x1 +.. bkxk
le test de rapport de vraisemblance p-e généralisé pour tester l’effet de plusieurs variables
le test ?
B (p+1) … Bk = 0
à partir de p+1 jusqu’à k, beta = 0?
eg : si on veut savoir de b4 à b10, b(p+1) = 4, b (3+1)
Effet d’un groupe variable (tbt cours 2 )
comment on fait pour calculer la vraisemblance ?
2 modèles qui s’emboîtent ?
lambda = -2log(Lréduit) - (-2log(Lc)) suit une loi de khi2 à k-p degrés de liberté.
on rejette Ho au risque alpha si lamda > khi2 (k-p DDL)
Quoi faire si on a 2 modèles qui ne s’emboitent pas ? (2)
les critères AIC et BIC sont les plus utilisés
+
une stratégie consiste à pénaliser la vraisemblance par une fonction du nbr de paramètres
Critère d’information d’AIC (2)
attention à ?
aic = -2log L + 2k
k est le nbr de variables dans le modèle et L est la vraisemblance maximisée
- application du aic pour de petites tailles d’échantillons (n) , (n/k< 40)
Interprétation aic
on préférera le modèle pour lequel la valeur AIC est la plus petite