6 - Régression logistique multiple 2 Flashcards

1
Q

Pourquoi et comment faire la sélection des variables ?

A

Pourquoi : faciliter l’interprétation, faciliter le déploiement et augmenter la robustesse (reproductibilité)
Comment : méthode statistique

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Qu’arrive-t-il lorsqu’il y a trop ou pas assez de variables dans le modèle ?

A

Trop : perte de puissance et sur-ajustement
Pas assez : confusion résiduelle et mauvaise adéquation du modèle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quelles sont les 3 méthodes statistiques pour la sélection de variables ?

A
  1. Forward selection : la variable la plus significative (valeur p la plus faible) est ajoutée au modèle à chaque étape sauf si valeur p > seuil
  2. Backward selection : la valeur la moins significative (valeur p la plus élevée) est retirée du modèle à chaque étape sauf si valeur p < seuil
  3. Stepwise selection : forward + backward
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Pourquoi la méthode progressive / stepwise selection est-elle importante ?

A

Car des variables introduites peuvent devenir non significatives après l’introduction de nouvelles variables et ce dû à l’estimation des paramètres par la méthode du maximum de vraisemblance

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Comment tester l’effet d’un groupe de variables ?

A

Test de rapport de vraisemblance pour tester la contribution d’un groupe de variables vs individuelle
1. H₀ : β₁, β₂, …, βᵢ = 0
2. Statistique de LRT = 2log(L₂) - 2log(L₁)
3. Rejeter H₀ si λ > χ²(1 - ⍺)(k - p)
4. Distribution suit une loi χ² avec (k - p) degré de liberté

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quel est l’inconvénient avec le test LRT et quelles sont les solutions ?

A

Inconvénient : permet de sélectionner seulement un modèle parmi 2 modèles emboités (complet et réduit)
Solutions : utiliser des critères de choix de modèles pour comparer des modèles qui ne sont pas forcément emboîtés les uns dans les autres = AIC ou BIC

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qu’est-ce que le critère d’information d’Akaike (AIC) ?

A
  1. AIC = - 2 log (L) + 2k où k est le nombre de variables dans le modèle
  2. Le meilleur modèle correspond à celui avec la plus petite valeur d’AIC
  3. AIC représente un compromis entre le biais et la parcimonie = bonne description des données avec le moins de paramètres possibles
  4. AIC ne peut pas être utiliser pour un petit n (n/k < 40) = BIC
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Qu’est-ce que le critère d’information bayésien (BIC) ?

A
  1. BIC = - 2 log (L) + k log (n)
  2. Le meilleur modèle correspond à celui avec la plus petite valeur BIC
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quelle est la différence entre statistiquement et cliniquement significatif ?

A

Statistiquement : valeur p du odds ratio < 0.05
Cliniquement : IC du odds ratio n’inclut pas 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly