Cours 9 - Régression logistique Flashcards
Quelles types de questions peut-on retrouver dans les régression logistique? Pour quel type d’information peut-on l’utiliser?
- Prédire l’appartenance à un groupe selon un ensemble de variables
- Identifier les meilleurs prédicteurs et déterminer le sens de leur association (est-ce qu’un prédicteur augmente ou diminue la probabilité d’appartenir à un groupe?)
- Développer un modèle pour classifier des nouveaux cas où l’appartenance à un groupe est inconnue
Avec quel type de variable peut-on utiliser la régression logistique?
Avec des variables catégorielles
Catégorielle binaire= 2 catégories à notre variable catégorielle (0,1)
Catégorielle multinomiale = plus d’1 catégorie à la VD : ses niveaux peuvent être gradés (ordre logique) indiquant un ordre logique comme ça peut être aléatoire.
Quels sont les avantages de la régression logistique?
La régression logistique est plus flexible que d’autres analyses pour plusieurs raisons :
a) permet d’inclure des prédicteurs évalués sur toutes les échelles de mesure
b) n’exige pas le respect de la linéarité des relations entre les prédicteurs
c) n’exige pas le respect de la normalité ou de l’homogénéité des variances
MAIS, la régression multiple reste la meilleure solution si ses postulats sont respectés (elle est plus puissante)
À quoi ressemble la régression de la régression logistique? Pourquoi?
Ressemble à un S (qui commence à la 1re valeur de la VD et termine à la dernière)
→ On veut trouver le meilleur ajustement (comme dans régression multiple) et ainsi réduire l’écart entre les variables observées et prédites
→ Si on trace une droite de régression, elle passe pomal dans le beurre (touche à presque aucun point)
→ Si on trace une droite de régression, la droite ne passe même pas par 0 (qui est une des options de la VD)
→ Pas besoin d’assumer / respecter la normalité
Comment faire l’équation de la régression logistique ?
Avec la formule de la régression multiple, on ne peut pas prédire une variable catégorielle
Il faut donc la transformer : on lui fait donc faire une TRANSFORMATION LOGARITHMIQUE
→ Cette transformation permet d’exprimer une relation non linéaire (à cause des variables catégorielles qui ne peuvent pas s’exprimer linéairement)
→ On transforme l’équation en une probabilité : qui nous permet de calculer la probabilité de faire partie d’un groupe visé (soit une des catégories de la variable)
→ On pourra ensuite calculer le log de vraisemblance = va nous donner un indice global de à quel point le modèle représente bien nos données
Quels tests inférentiels peut-on faire avec la régression logistique?
2 MODÈLES:
1) Modèle sans prédicteurs (seulement l’ordonnée à l’origine - la constante)
2) Modèle avec l’ensemble des prédicteurs
TESTS
1) On reçoit un pseudo-R2 de SPSS pour estimer le % de variance expliquée
2) On peut utiliser le test de Wald (correspond à un khi2) : si le coefficient de régression du prédicteur est significativement différent de 0
3) On peut utiliser un rapport de cote : nous indique la direction et la force de la relation entre le prédicteur et le groupe
→ Interprétation en %
* RC = 1 = absence de relation
* RC < 1 = diminution du risque ((1/RC) X 100)
* RC > 1 = augmentation du risque ((RC-1) X 100)