6 - Régression logistique multiple 2 Flashcards
Pourquoi et comment faire la sélection des variables ?
Pourquoi : faciliter l’interprétation, faciliter le déploiement et augmenter la robustesse (reproductibilité)
Comment : méthode statistique
Qu’arrive-t-il lorsqu’il y a trop ou pas assez de variables dans le modèle ?
Trop : perte de puissance et sur-ajustement
Pas assez : confusion résiduelle et mauvaise adéquation du modèle
Quelles sont les 3 méthodes statistiques pour la sélection de variables ?
- Forward selection : la variable la plus significative (valeur p la plus faible) est ajoutée au modèle à chaque étape sauf si valeur p > seuil
- Backward selection : la valeur la moins significative (valeur p la plus élevée) est retirée du modèle à chaque étape sauf si valeur p < seuil
- Stepwise selection : forward + backward
Pourquoi la méthode progressive / stepwise selection est-elle importante ?
Car des variables introduites peuvent devenir non significatives après l’introduction de nouvelles variables et ce dû à l’estimation des paramètres par la méthode du maximum de vraisemblance
Comment tester l’effet d’un groupe de variables ?
Test de rapport de vraisemblance pour tester la contribution d’un groupe de variables vs individuelle
1. H₀ : β₁, β₂, …, βᵢ = 0
2. Statistique de LRT = 2log(L₂) - 2log(L₁)
3. Rejeter H₀ si λ > χ²(1 - ⍺)(k - p)
4. Distribution suit une loi χ² avec (k - p) degré de liberté
Quel est l’inconvénient avec le test LRT et quelles sont les solutions ?
Inconvénient : permet de sélectionner seulement un modèle parmi 2 modèles emboités (complet et réduit)
Solutions : utiliser des critères de choix de modèles pour comparer des modèles qui ne sont pas forcément emboîtés les uns dans les autres = AIC ou BIC
Qu’est-ce que le critère d’information d’Akaike (AIC) ?
- AIC = - 2 log (L) + 2k où k est le nombre de variables dans le modèle
- Le meilleur modèle correspond à celui avec la plus petite valeur d’AIC
- AIC représente un compromis entre le biais et la parcimonie = bonne description des données avec le moins de paramètres possibles
- AIC ne peut pas être utiliser pour un petit n (n/k < 40) = BIC
Qu’est-ce que le critère d’information bayésien (BIC) ?
- BIC = - 2 log (L) + k log (n)
- Le meilleur modèle correspond à celui avec la plus petite valeur BIC
Quelle est la différence entre statistiquement et cliniquement significatif ?
Statistiquement : valeur p du odds ratio < 0.05
Cliniquement : IC du odds ratio n’inclut pas 1