4 - Régression logistique multiple Flashcards
Quelle est la différence entre la régression logistique simple et multiple ?
Multiple : plusieurs variables indépendantes donc interaction entre les X donc ajustement du modèle pour limiter les biais
Quelle est la fonction logistique pour la régression logistique multiple ?
E(Y|X₁ = x₁, X₂ = x₂, …) = π (x₁, x₂, …) = eᵝ⁰⁺ᵝⁱˣⁱ / (1 + eᵝ⁰⁺ᵝⁱˣⁱ)
La fonction logistique représente la probabilité de développer l’outcome (Y = 1) en fonction de plusieurs variables indépendantes
Quelle est la fonction logit pour la régression logistique multiple ?
logit (π (x)) = ln( π (x) / (1 - π (x)) ) = β₀ + βᵢxᵢ
La fonction logit exprime la relation linéaire qui lie les variables indépendantes à la variable dépendante
Quelle est l’interprétation de β₀ et de β₁ pour la régression logistique multiple ?
β₀ = probabilité d’avoir l’évènement (Y = 1) lorsque toutes les variables indépendantes sont mises à 0
β₀ > 0 : probabilité d’évènement supérieure à 0.5 donc maladie prévalente
β₀ < 0 : probabilité d’évènement inférieure à 0.5
βᵢ = accroissement de logit (π (x)) par unité de Xᵢ ajusté pour les autres variables
Quel est le odds ratio pour la régression logistique multiple ?
ORᵢ = eᶻᵝⁱ pour un changement de z unités de la variable Xᵢ
zβᵢ = ln (ORᵢ)
Exemple :
X₁ = 1 indique la prise du traitement
OR = 1.28
Le rapport des probabilités d’apparition de l’évènement (Y = 1) contre (Y = 0), ajusté pour les autres variables, est 28% plus élevé dans le groupe traité (X₁ = 1) comparé au groupe non traité (X₁ = 0)
Quelle est la méthode pour estimer les paramètres pour la régression logistique multiple ?
Méthode du maximum de vraisemblance
Pourquoi et comment utiliser les tests de significativité ?
Pourquoi : confirmer que les résultats sont significativement significatifs
Comment : évaluer la contribution individuelle de la variable Xᵢ sur le modèle avec l’hypothèse nulle
Quels sont les étapes à effectuer lors du test de significativité ?
- Postuler l’hypothèse nulle H₀ : βᵢ = 0 (pas d’effet de βᵢ)
- Trouver une statistique de test : test de WALD ou rapport de vraisemblance
- Trouver la distribution de la statistique : chi-2
- Trouver la valeur P : provient de la distribution
- Comparer la valeur P à un seuil ⍺
- P < ⍺ alors rejeter l’hypothèse nulle
En quoi consiste le test de WALD ?
- Statistique WALD = βᵢ / sᵢ
- H₀ : βᵢ = 0
- Rejeter H₀ si βᵢ / sᵢ > 1.96 ou si (βᵢ / sᵢ)² > 3.84
- Distribution asymptomatique normale (distribution suit une loi normale lorsque n est grand)
En quoi consiste le test de rapport de vraisemblance (LRT) ?
- Comparer les vraisemblances de 2 modèles emboîtés (complet L₂ et réduit L₁) donc tester la significativité de β₂
- Statistique de LRT = 2log(L₂) - 2log(L₁)
- H₀ : β₂ = 0
- Rejeter H₀ si λ > χ²(1 - ⍺) > 3.84
- Distribution suit une loi χ² avec 1 degré de liberté
- Prioriser LRT à WALD si contrediction
Qu’est-qu’une interaction ?
Effet d’une variable explicative X sur la variable dépendante Y varie selon une autre variable explicative X
Ex : effet du Tx diffère selon le sexe
Comment déterminer s’il y a une interaction entre deux variables explicatives ?
- Introduire une nouvelle variable X₁ × X₂ dans le modèle
- Vérifier si l’interaction produit un effet significatif sur la variable dépendante
- Mesurer le odds ratio (ampleur de l’effet)
- Interpréter l’estimation de l’interaction
Quelle est la fonction logit pour une interaction ?
logit (π (x₁, x₂)) = β₀ + β₁x₁ + β₂x₂ + β₁₂x₁ × x₂
H₀ : β₁₂ = 0 (pas d’interaction)
Quelle est l’interprétation des odds ratio en présence d’interaction ?
- 2 variables explicatives binaires :
x = 0 : OR = eᵝ¹
x = 1 : OR = eᵝ¹⁺ᵝ¹² - 1 variable explicative binaire et une variable explicative continue :
à x ans : OR = eᵝ¹
à x+1 ans : OR = eᵝ¹⁺ᵝ¹² - 2 variables explicatives continues
à x ans : OR = eᵝ¹
à x+1 ans : OR = eᵝ¹²
Qu’est-ce qu’un facteur de confusion ?
Lien existant entre le F et l’outcome ainsi qu’entre le F et l’exposition où la relation entre l’outcome et l’exposition diffère selon le niveau de F