Régression logistique multiple (2) Flashcards
sélection des variables est une étape clé de la modélisation
la méthode statistique doit nous donner des indications sur ?
le sous-ensemble des bonnes variables à inclure dans le modèle
Pourquoi la sélection des variables ? (3)
- moins il y aura de variables, plus facile sera l’interprétation
- déploiement sera facilité
- un modèle avec peu de variables a de meilleures chances d’être plus robuste en généralisation
choix des variables repose sur (3)
- bonne connaissance scientifique du problème
- utilisation approporiée des méthodes statistiques
- une connaissance de la littérature
Objectif est d’avoir le meilleur modèle qui répond à notre q? d’intérêt (3)
- prise en considération des variables explicatives potentielles
- controle des variables confondantes
- résultats stables
Conséquences de plusieurs variables dans le modèle (2)
- perte de puissance
- sur-ajustement
Conséquences de pas assez de variables prises e considération (3)
- possibilité de confusion résiduelle
- moins bonne adéquation du modèle
- interprétation plus facile
Procédures pas à pas
2
- méthode pas à pas ascendante (forward selection)
- méthode pas à pas descendante (backward selection)
Forward selection (2)
- à chaque pas , une variable est ajoutée au modèle
- procédure s’arrête lorsque toutes les variables sont intégrées ou lorsque la valeur p est plus grande qu’une valeur seuil (souvent choisi égal à 0 1)
backward selection (2)
- à la première étape toutes les variables sont intégrées au modèle
- la procédure s’arrête lorsque toutes les variables sont retirées du modèle ou lorsque la valeur p est plus petite qu’une valeur seuil
Méthode progressive (stepwise selection)
force des variables potentielles ?
same que méthode pas à pas ascendante , sauf que l’on peut éliminer des variables déja introduites. En effet, il peut arriver que des variables introduites au début ne soient plus significatives après introduction de nouvelles variables
-cas où l’âge est une variable évidente pr le cancer, mais l’âgen’est pas décrit ds notre pop, on va forcer la variable anyway
Effet d’un groupe de variables
modèle global :
logit(pi(x) : b0 +b1x1 +.. bkxk
le test de rapport de vraisemblance p-e généralisé pour tester l’effet de plusieurs variables
le test ?
B (p+1) … Bk = 0
à partir de p+1 jusqu’à k, beta = 0?
eg : si on veut savoir de b4 à b10, b(p+1) = 4, b (3+1)
Effet d’un groupe variable (tbt cours 2 )
comment on fait pour calculer la vraisemblance ?
2 modèles qui s’emboîtent ?
lambda = -2log(Lréduit) - (-2log(Lc)) suit une loi de khi2 à k-p degrés de liberté.
on rejette Ho au risque alpha si lamda > khi2 (k-p DDL)
Quoi faire si on a 2 modèles qui ne s’emboitent pas ? (2)
les critères AIC et BIC sont les plus utilisés
+
une stratégie consiste à pénaliser la vraisemblance par une fonction du nbr de paramètres
Critère d’information d’AIC (2)
attention à ?
aic = -2log L + 2k
k est le nbr de variables dans le modèle et L est la vraisemblance maximisée
- application du aic pour de petites tailles d’échantillons (n) , (n/k< 40)
Interprétation aic
on préférera le modèle pour lequel la valeur AIC est la plus petite
AIC représente donc un compromis ??
entre le biais (qui diminue avec le nbr de paramètres) et la parcimonie (nécéssité de décrire les données avec le plus petit nombre de paramètres possible)
BIC (2)
=2Log (L) + klog(n)
- k est le nbr de variabiles dans le modèle. L est la vraisemblance maximisée et n est la taille d’échantillon
Interprétation bic :
modèle ak valeur bic plus petite
- avec ce critère déviance (-2log(L)) pénalise pr taille de l’échantillon en incluant le terme log(n)
- modèle + parcimonieux
aic et bic permettent dans ce cas de sélectionner le modèle le plus ?
proche de la réalité
essai 1
R : 3.2
IC : 2.2-4.2
p<0.0001
l’effet du traitement est statistiquement significatif. au pire des cas on a un odds ratio de 2.2 (cliiquement intéressant)
Essai 2 :
1.15
ic : 1.05 -1.125
p =0.001
l’effet du traitement est statistiquement significatif avec bcp de précision mais c’est un effet petit qui risque de ne pas être CLINIQUEMENT INTÉRESSANT
Essai 3
- 05
- 03-3.05
- 045
l’Effet du traitement est statistiquement significatif, mais pas de précision
il est probable que le OR soit proche de 3.05 comme il soit proche 1.05. => recommandé de conduire un essai supplémentaire
Essai 4
- 05
- 95-1.15
- 95
l’Effet du traitement n’est pas statistiquement significatif mais il est estimé avec précision
aucune utilité clinique
essai 5 :
2.3
- 8-3.8
- 28
l’effet du tx n’est pas statistiquement significatif, mais or soit proche de 3.8 ce qui est une valeur cliniquement intéressante. La conduite d’un ec. supplémentaire est recommandée