La régression multiple Flashcards
Pourquoi faire des analyses de régression multiple?
- Parce que ça améliore la prédiction de la variable dépendante en prenant en considération l’effet de plusieurs variables indépendantes
- Permet de connaître leur effet unique ET leur effet combiné (sur la VD)
- Permet d’inclure des variables contrôle/tierce
- Présence de relations dites artificielles?
- = Modèle de prédiction
Que signifi la présence de relations dites artificielles ou conditionnelles?
- Quand l’entrée une variable fait en sorte qu’elle devient non significative alors qu’elle l’était au départ (dans d’autres tests par exemple) on parle d’une relation artificielle.
- Une relation conditionnelle est au contraire lorsqu’il n’y a pas de variable significative au départ mais qu’en l’entrant dans le modèle de prédiction elle devient significative.
- La relation conditionnelle devient significative lorsqu’une autre variable est présente en même temps.
- Faire des régressions linéaires multiples permet de savoir si on a des relations artificielles ou conditionnelles.
Expliquer les différents types de régression qui existent, selon l’échelle de la VD
- VD = doit être quantitative (distribué normalement) pour analyse de régression linéaire multiple. C’est le type d’analyse la plus commune en recherche de façon générale mais en crimino on utilise davantage régression logistique.
- VD = doit être dichotomique pour analyse de régression logistique. Des qu’on compare 2 groupes entre eux, on utilise l’analyse de régression dite logistique (sous-entend qu’on a VD dichotomique)
- VD = doit être catégorielle (3 groupes ou plus) pour analyse de régression logistique multinominale.
Quels sont les critères d’utilisation pour la régression linéaire multiple?
- VD quantitative
- VI quantitative ou dichotomique.
- Si on a variable catégorielle, on doit, pour les besoins du test de régression multiple, dichotomiser notre VI*
Quels sont les postulats de la régression linéaire multiple?
- Minimum de 20 cas/effectifs par variable
- n/nombre de variables incluses dans le modèle
- Normalité de la distribution de la VD et des VI quanti
- Analyse univariée et inspection de l’histogramme, les ratios, le mode, la médiane, la moyenne, etc.
- Linitéarité de la relation entre la VD et les VI quanti
- Inspection à l’aide du diagramme de dispersion
- Absence de colinéarité et multicolinéarité⇒ indépendance des observations
- Matrice de corrélation et indice de « tolérance »
- (Aucune variable inutile n’est incluse dans le modèle)
- Suite aux analyses bivariées (n’inclure que celles qui sont significatives)
Qu’est-ce que la multicolinéarité et ses caractéristiques?
- Modèle de régression plus puissant lorsque chaque VI est fortement associées à la VD, mais que chaque VI est indépendante des autres VI
- Lorsque deux VI partagent le même % de variance expliquée de la VD ⇒ contribution ≠ unique… (apport explicatif)
- Indice de tolérance
- Varie de 0 à 1
- Problématique lorsque ≤ 0.30
Quelle est la différence entre la colinéarité et la multicolinéarité?
La colinéarité ne nous permet pas de voir l’ensemble de VI combinées, parce que la collinéarité est simple, c’est juste une à une. La multicolinéarité c’est de mettre toutes les VI ensemble et de voir si c’est le même % d’explication (avec l’indice de tolérance).