Régression linéaire multiple Flashcards
Que reitre la regression multiple ?
la variance expliqué (R2) qui est commune aux deux variables, permet avoir apport expli propre de chaque variable
Les postulats 1 et 2
- Postulat lié spécifie du modèle
Modèle = correctement corrélé (aucune variable importante oublié, non importante ajoutée)
Sinon : diminution du R2, rela fallacieuse (concept verrait important alors qu’il ne l’est pas), rel improbable. - Postulat erreur de mesure
Variable = correctement mesurées
Abs d’autocorrélation, l’autocorrélation temporelle est la + fréquente
Les postulats 3 et 4
- Postulat relatif au terme d’erreur
Les variables importante ne sont pas corrélées ac T E. Si oui, alors pb spé modèle.
Le T E est normalement distribué
Variance d’erreur est constante pour les valeurs de X : homocédas - Abs de colinéarité ou multico parfaite. Si p supérieur à 0,8 alors pb.
Pour détecter, régresser chaque prédic entre eux et si valeur de R2 approche 1, alors pb.
Pourquoi est-il important de s’assurer de l’erreur de prédiction
Elle doit être distribuée normalement, car les postulats en dépendent.
Menu plot de le regression et sortir l’histograme.
Pour voir si erreur des prédicateurs est corrélée ac VD : menu save, standardized résiduel, créer new variable et on peut faire corréler ac cette nouvelle variable et la VD
Les questions à se poser :
- Le modèle fonctionne-t-il? Peut on prédire VD ac VI?
- Si modèle utile pour prédire VD, quelle est sa valeur prédicatrice? Quelle est la proportion de la variance expliquée par prédicateur
- Quels sont les prédic les + puissants
- Regarder le ration F, qui test que tous les clef sont de 0, donc regarder sig F de l’Anova.
- Tableau sommaire du modèle (R square)
- Tableau sommaire reg puis regarder le BETA, car les score sont comparables entre eux.
Le b est utile si on veut prédire le score pour un sujet en particulier. Il est non standardisé.
Pourquoi utiliser la reg logistique ?
Car va mieux ac variable dicho, car asymptotique, le passage d’1 niveau à l’autre se fait + rapidement qu’en linéaire.
Aussi, régression logistique car tableau croisé peuvent pas traiter + d’1 prédicateur à la fois, ni estimer s’il existe effet d’intéraction entre les prédicateurs.
Postulats
- Variable dicho, relation logistique
- Spécification du modèle ; s,assurer qu’aucune variable importante n’a été omise, et non pertinente ajoutée.
- Pas de multicolinéarité
- Minimum de 10 participants par prédic
Qualité du modèle
- Chi2 indique si le modèle est significatif, + il est élevé et + on est content.
- -2 log de likelihood: calcul la taille de l,effet de chaque variable.
- Hosmer et Lemeshow : goodness of fit: doit être non significatif
- Le % de bonne classification : + il est élevé et mieux c’est.
- Coef Wald : la variable à t-elle un apport prédic significatif?
- Exp(b) : varie de 0 à l’infini. Il est non stnadardisé, donc il faut faire le R-statistique.