Régression logistique Flashcards

1
Q

Quand utiliser une régression logistique au lieu d’une régression linéaire ?

A

Lorsque la variable dépendante est dichotomique (ex. 0 = non, 1 = oui), ce qui empêche l’utilisation d’une régression linéaire qui suppose une VD continue.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Que signifie un odds ratio (OR) > 1 dans un modèle logistique ?

A

Cela indique que plus la variable indépendante augmente, plus la probabilité d’appartenir à la catégorie 1 augmente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Qu’est-ce que le logit dans une régression logistique ?

A

Le logit est la transformation log-linéaire de la probabilité, soit log(p / 1 – p), ce qui permet de modéliser une probabilité dans une régression.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quelle est la formule générale de la régression logistique ?

A

log(p / 1 – p) = b₀ + b₁X₁ + b₂X₂ + … + ε

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Que signifie un coefficient B négatif dans un modèle logistique ?

A

Que l’augmentation de la VI est associée à une baisse de la probabilité d’appartenir à la catégorie 1 de la VD.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Que représente un OR = 1 ?

A

Aucune relation entre la VI et la probabilité de la VD.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Que signifie une p-value de 0.03 pour un coefficient dans la régression logistique ?

A

La VI est un prédicteur significatif de la variable dépendante à p < 0.05.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Qu’est-ce que le pseudo-R² (ex. Nagelkerke) ?

A

Un équivalent approximatif du R² en régression linéaire, indiquant la proportion de variance expliquée.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quelle est la principale hypothèse de la régression logistique ?

A

La relation linéaire entre les VI continues et le logit de la probabilité.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Que vérifie le test de Hosmer-Lemeshow ?

A

La qualité de l’ajustement du modèle aux données. Une p > .05 indique un bon ajustement.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quel indicateur diagnostique les valeurs influentes dans un modèle logistique ?

A

Le dfBeta ou la distance de Cook.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Que signifie une valeur de Cook > 1 dans une régression logistique ?

A

L’observation est potentiellement très influente et devrait être examinée.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Qu’est-ce qu’un modèle saturé ?

A

Un modèle qui utilise autant de prédicteurs que nécessaire pour parfaitement prédire les données observées (ajustement parfait mais peu généralisable).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Pourquoi ne peut-on pas interpréter directement les coefficients B ?

A

Parce qu’ils sont exprimés en logit. On interprète plutôt les odds ratios (exp(B)).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Peut-on utiliser des variables nominales dans une régression logistique ?

A

Oui, en les transformant en variables indicatrices (dummy coding).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Que signifie un intervalle de confiance de l’OR qui inclut 1 ?

A

L’OR n’est pas significatif (p > .05).

17
Q

Comment tester si la relation entre une VI continue et le logit est linéaire ?

A

Avec le test de Box-Tidwell.

18
Q

Que faire si la linéarité du logit n’est pas respectée ?

A

Transformer la VI (ex. logarithme) ou la recoder en catégories.

19
Q

Qu’est-ce qu’une matrice de confusion ?

A

Un tableau croisant les prédictions du modèle et les classes réelles de la VD.

20
Q

Qu’est-ce que la sensibilité dans une matrice de confusion ?

A

La capacité du modèle à bien prédire les cas positifs (catégorie 1).

21
Q

Qu’est-ce que la spécificité dans une matrice de confusion ?

A

La capacité du modèle à bien prédire les cas négatifs (catégorie 0).

22
Q

Quand utiliser une régression logistique multinomiale ?

A

Lorsque la VD a plus de deux catégories non ordonnées.

23
Q

Quelle est la différence entre régression logistique binaire et multinomiale ?

A

Binaire : VD à deux catégories. Multinomiale : VD à 3+ catégories sans ordre.

24
Q

Peut-on inclure des interactions dans une régression logistique ?

A

Oui, en ajoutant un produit des variables indépendantes (ex. X₁ × X₂).

25
Que signifie un OR de 2.0 ?
Chaque unité d’augmentation de la VI multiplie par 2 la probabilité d’être dans la catégorie 1.
26
Que signifie une classification correcte à 82 % ?
Le modèle prédit correctement la VD dans 82 % des cas (selon le seuil choisi, ex. .5).
27
Pourquoi est-ce problématique d’avoir des classes très déséquilibrées ?
Le modèle peut prédire excessivement la classe majoritaire sans vraiment apprendre la structure des données.
28
Quel est l’intérêt de l’AIC (Akaike Information Criterion) ?
Comparer la qualité d’ajustement entre plusieurs modèles logistiques : plus bas = meilleur.
29
Que signifie une régression logistique "significative au niveau du modèle" ?
Que les prédicteurs pris ensemble expliquent une part significative de la variance dans la probabilité de la VD.
30
Que faire si une observation est mal classée mais a un haut leverage ?
Il faut vérifier son influence sur les coefficients (dfBeta) et envisager une exclusion si justifiée.