Cours 3 Flashcards
La régression multiple teste les relations entre une VD et 1+ VI. Expliquer l’équation des régression multiples.
Y’= B0 + B1X1 + B2X2 + B3X3 +…+ BkXk
Y’= B0 + B1X1 + B2X2 + B3X3 +…+ BkXk
Y’ = Valeur prédite
Y = Valeur observée
B0 = Ordonnée à l’origine
B1 = quantité de changement dans la VD
associée à une unité de la 1e VI (same pour B2, B3, Bk)
B est un coefficient non-standardisé (la valeur dépend de la variance de la VI)
Comment on interprète le .05 âge dans l’équation de régression ci-dessous?
Dépression = 10 + 0.5 âge + 2 anxiété
La valeur est positive, donc plus on vieilli plus on a un score de dépression élevé. On obtient un score VD équivalent à la moitié de l’âge . À chaque fois qu’on augmente de 1 an l’âge, on augmente la dépression de .5, MAIS l’anxiété va augmenter la dépression de 2 pour sa part. Donc le Y va augmenter de 2.5.
ATTENTION On ne peut pas dire directement que l’anxiété va avoir un plus gros impact que l’âge. Pourquoi? Parce que l’anxiété est mesurée différement que l’âge donc on le standardise sur une autre échelle que l’âge.
L’objectif de l’analyse de régression est de minimiser la différence
entre les valeurs […] et […] de la
variable dépendante, avec N observations.
L’objectif de l’analyse de régression est de minimiser la différence
entre les valeurs observées et prédites de la
variable dépendante, avec N observations.
Pourquoi on met la relation ici au carré? Pour éviter d’avoir des valeurs positifs. Donc on veut éviter que les valeurs négatfs et positifs s’annulent. On veut minimiser cette écart au carré (valeur prédite vs observée).
Quelles sont les différentes questions de recherche de la régression multiple?
- Présence et force d’une association entre 1 VD et 1+ VI
- Importance relative de chaque VI
- Contribution de VI additionnelles
- Étude de relation non-linéaire ou d’interaction entre plusieurs VI
- Comparaison de la contribution de plusieurs ensembles de VI
- Prédire la VD pour un nouvel échantillon de sujets (mêmes VI)
VRAI ou FAUX
La régression multiple est sensible à la combinaison et à la fidélité des VI
VRAI
La régression multiple est sensible à la combinaison et à la fidélité des VI
La régression est idéale si chaque VI présente peu d’erreur de mesure, elle est corrélée avec la VD mais peu avec les autres VI
Quelles sont les conditions d’utilisation de la régression multiple? (6)
- Ratio N/VI
- Linéarité de la relation : E(résidus) = 0
- Homoscédasticité : Var(résidus) = σ2
- Indépendance des erreurs : Cov(résidus) = 0
- Normalité des erreurs : résidus ~ N(0, σ2)
- Absence de multicollinéarité (et singularité)
** Une stratégie efficace est d’examiner les résidus de la prédiction pour vérifier les postulats 2 à 6
Décriver la condition d’utilisation N/VI de la régression multiple ainsi que les calculs pour la vérifier.
Ratio N/VI trop faible amène une association forte mais fortuite. Si trop de VI, on a de l’overfitting
Association générale :
N += 50 + 8m (m = nombre de VI)
Contribution d’un prédicteur spécifique :
N += 104 + m (m = nombre de VI)
N doit être plus important si la VD est non-normale, si une association faible est attendue, ou si les VI présentent une faible fidélité
Si régression par étapes, un ratio de 40 : 1 est suggéré.
La somme des résidus de la régression s’appelle […]
La somme des résidus de la régression s’appelle la somme des carrés résiduels (SSres)
Quel est l’implication de l’utilisation de la méthode des moindres carrés sur la droite de régression afin de réduire la somme des carrés résiduels?
La somme du carré des erreurs est une fonction quadratique (x2), qui prends la forme d’une parabole et qui a donc toujours un seul minimum.
- > On peut démontrer de façon plus générale (avec le calcul différentiel) que cette méthode assure que thêta sera celui qui réduit au maximum les erreurs
- > Par conséquence, la méthode des moindres carrés assure que la régression est une solution optimale pour ajuster les VI et la VD.
La multiplication de deux matrices de variance/covariance permet d’obtenir directement la valeur des poids de régression associés à une SCRES minimale. Expliquer l’idée derrière la formule ci-dessous.
Les bêta (coefficient de régression) sont obtenus grâce à la multiplication de deux matrices (de variance entre les VI puis de variance entre les VI et la VD).
Ici je regarde la relation entre mes VI et ma VD et je divise par la matrice de VC entre les VI. Si mon prédicteur n’est pas bon, la covariance sera mauvaise. Quand on divise une covariance par une variance, on la standardise et on crée une corrélation. DONC ICI LA FORMULE EST UNE CORRÉLATION. Les poids de régression sont donc très proche de l’idée qu’on a de la corrélation, simplement corriger pour le fait que les variables indépendantes sont variantes.
Les bêta sont fonc des corrélations qui prennent compte de la relation redondante entre les prédicteurs.
Dans une régression, il y a trois sources de variance. Quelles sont-elles?
- La variance de la variable dépendante (SSY)
- La part qui est expliquée par la combinaison linéaire
- des prédicteurs (SSreg)
- La part qui n’est pas expliquée (erreurs de prédiction = résidus = SSres)
Dans une régression multiple, à quoi correspond R2?
R2 représente la portion de variance expliquée de la VD par la meilleure combinaison linéaire des VI. Nous dit à quel point on arrive à bien prédire la probabilité de la VD.
R2 = SSreg / SSY
**La meilleur régression va donner 1 (SSy / SSy) alors que la pire va donner proche de 0 **
R corresponds à la corrélation entre les valeurs prédites et les valeurs observées de la VD (Y) :
R = rYY’
Quelles sont les trois types de régression linéaire, en fonction de l’ordre d’entrée des VI?
- Méthode standard – toutes les VI en une seule étape
- Méthode hiérarchique (sequential) – l’entrée des VI selon un ordre prédéterminé
- Méthode statistique (stepwise) – l’entrée des VI selon un critère statistique
** L’ordre d’entrée des prédicteurs dans la régression va déterminer la répartition de la variance commune aux prédicteurs.
Ce diagramme montre l’effet de l’ordre d’entrée des prédicteurs sur la répartition de la variance dans une régression. Expliquer quel diagramme représente quel méthode d’entrée des prédicteurs.
Diagramme b = Méthode standard. Le premier prédicteur va ramasser ce qui est unique à lui, le deuxième va ramasser ce qui est unique à lui, etc. Donc ce qui n’est pas unique à eux va être “perdu”, non assigné. Si on voit quela VI1 n’est pas complètement tenu en compte, on peut se dire que la VI2 overlap trop et donc a nuit. Cette méthode prend seulement en compte les variances unique à une VI.
Diagramme C = Méthode hiérarchique (de séquence). La première variable ramasse tout ce qui est à elle (pas juste unique) (a + b, correspond à la corrélation entre la VI/VD). Le deuxième ramasse tout ce qui est à elle (qui n’a pas été prise par la précédente) (c+d, correspond à la corrélation entre la VI/VD qui n’est pas du à VI1), etc. C’est le chercheur qui a décidé de l’orde d’entrée des données
Diagramme D = Méthode statistique. L’entrée va dépendre de l’importance de chaque VI pour déterminer son ordre d’entrée. Puisque la valeur a+b est plus grande, VI1 va rentrer en 1er, puis d+e est plus importante pour expliquer VD donc VI3 va entrer en deuxième puis il ne restera que la région c.
Comment choisit-on le type de régression linéaire? (4)
- Étude de la contribution des VI
- Méthode standard: J’ai plusieurs prédicteurs, je veux savoir c’est lequel le plus important (la contribution unique).
- Construction vs vérification d’un modèle
- Méthode hiérarchique: Si on veut vérifier un modèle, je veux comparer deux modèles qui poussent différents prédicteurs comme important. Dans ce cas, on prend un modèle et on ajoute l’autre modèle et on voit si ça ajoute de quoi (sinon, le modèle de base est le plus fort).
- Réduire le nombre de VI et/ou problème de multicollinéarité
- Méthode statistique: On veut savoir les variables les plus importantes dans notre modèle car on en a trop, on va donc prendre la méthode stats (standard, on sait pas si on va avoir toutes les données sign, hiérarchique, on va avoir un biais). Problème multicollinéarité (redondance entre les prédicteurs): Modèle standard est très peu robuste à la redondance des prédicteurs (perd une trop grande partie de nos données). Naturellement, la méthode statistique va être robuste à la multicollinéarité (si la première variable amène trop d’influence et la deuxième peu, sa puissance sera automatiquement géré en fonction de sa puissance).
- Méthode statistique (stepwise) est très influencée par la taille d’échantillon (trop petite ou trop grande)
- La méthode statistique fait un test statistique à chaque étape donc même si on fait un modèle, chaque test d’entrée va être significatif et toutes nos prédicteurs vont être entrés. Le test d’entrée et de sortie est fait en fonction de la puissance du test qui est dépendante de l’échantillon.