Régression logistique Flashcards
Quand utiliser une régression logistique au lieu d’une régression linéaire ?
Lorsque la variable dépendante est dichotomique (ex. 0 = non, 1 = oui), ce qui empêche l’utilisation d’une régression linéaire qui suppose une VD continue.
Que signifie un odds ratio (OR) > 1 dans un modèle logistique ?
Cela indique que plus la variable indépendante augmente, plus la probabilité d’appartenir à la catégorie 1 augmente.
Qu’est-ce que le logit dans une régression logistique ?
Le logit est la transformation log-linéaire de la probabilité, soit log(p / 1 – p), ce qui permet de modéliser une probabilité dans une régression.
Quelle est la formule générale de la régression logistique ?
log(p / 1 – p) = b₀ + b₁X₁ + b₂X₂ + … + ε
Que signifie un coefficient B négatif dans un modèle logistique ?
Que l’augmentation de la VI est associée à une baisse de la probabilité d’appartenir à la catégorie 1 de la VD.
Que représente un OR = 1 ?
Aucune relation entre la VI et la probabilité de la VD.
Que signifie une p-value de 0.03 pour un coefficient dans la régression logistique ?
La VI est un prédicteur significatif de la variable dépendante à p < 0.05.
Qu’est-ce que le pseudo-R² (ex. Nagelkerke) ?
Un équivalent approximatif du R² en régression linéaire, indiquant la proportion de variance expliquée.
Quelle est la principale hypothèse de la régression logistique ?
La relation linéaire entre les VI continues et le logit de la probabilité.
Que vérifie le test de Hosmer-Lemeshow ?
La qualité de l’ajustement du modèle aux données. Une p > .05 indique un bon ajustement.
Quel indicateur diagnostique les valeurs influentes dans un modèle logistique ?
Le dfBeta ou la distance de Cook.
Que signifie une valeur de Cook > 1 dans une régression logistique ?
L’observation est potentiellement très influente et devrait être examinée.
Qu’est-ce qu’un modèle saturé ?
Un modèle qui utilise autant de prédicteurs que nécessaire pour parfaitement prédire les données observées (ajustement parfait mais peu généralisable).
Pourquoi ne peut-on pas interpréter directement les coefficients B ?
Parce qu’ils sont exprimés en logit. On interprète plutôt les odds ratios (exp(B)).
Peut-on utiliser des variables nominales dans une régression logistique ?
Oui, en les transformant en variables indicatrices (dummy coding).
Que signifie un intervalle de confiance de l’OR qui inclut 1 ?
L’OR n’est pas significatif (p > .05).
Comment tester si la relation entre une VI continue et le logit est linéaire ?
Avec le test de Box-Tidwell.
Que faire si la linéarité du logit n’est pas respectée ?
Transformer la VI (ex. logarithme) ou la recoder en catégories.
Qu’est-ce qu’une matrice de confusion ?
Un tableau croisant les prédictions du modèle et les classes réelles de la VD.
Qu’est-ce que la sensibilité dans une matrice de confusion ?
La capacité du modèle à bien prédire les cas positifs (catégorie 1).
Qu’est-ce que la spécificité dans une matrice de confusion ?
La capacité du modèle à bien prédire les cas négatifs (catégorie 0).
Quand utiliser une régression logistique multinomiale ?
Lorsque la VD a plus de deux catégories non ordonnées.
Quelle est la différence entre régression logistique binaire et multinomiale ?
Binaire : VD à deux catégories. Multinomiale : VD à 3+ catégories sans ordre.
Peut-on inclure des interactions dans une régression logistique ?
Oui, en ajoutant un produit des variables indépendantes (ex. X₁ × X₂).