Cours 8 - Régression linéaire Flashcards
Je suis actuellement en train de calculer le coefficient de détermination. Pour cela, je viens d’abord calculer SSE et SST. Je me souviens des deux formules écrites en dessous, mais j’ai un doute sur ce qu’elles calculent. Je me tourne donc vers ma collègue (toi) pour m’aider. Pourrais-tu me dire laquelle calcule le SST et laquelle calcule le SSE et qu’est-ce que chacune représente dans tes propres mots?
∑i(yi- ŷ)^2
∑i(yi- y ̅ )^2
∑_i(y_i- y ̂ )^2
C’est la somme des erreurs au carré (SSE)
∑_i(y_i- y ̅ )^2
C’est la somme des carrés totaux (SST)
Quel test détecte l’autocorrélation dans les résidus? Et comment peut-on conclure que les résidus ne sont pas auto corrélés?
On peut effectuer un test d’hypothèse Durbin-Watson. Si la valeur de p est plus petite que 0.05, on rejette l’hypothèse nulle.
Quel est la différence entre le y et le y chapeau?
Le Ŷi représente la valeur estimée de y reliée à l’observation de Xi. Tandis que Y représente la vrai valeur observée.
Qu’est-ce que nous entendons par le postulat d’homoscédasticité et quoi faire lorsque notre modèle ne suit pas le postulat?
Il s’agit de voir si la variance des résidus est similaire pour chaque observations de i. Si on ne le respecte pas, nos coefficients deviennent moins précis. On peut dans ce cas, effectuer une transformation logarithmique sur la variable dépendante.
« Dans un nuage de points, parmi toutes les droites possibles, je cherche celle qui fournira la plus petite somme des erreurs au carré de la distance des points par rapport à la droite.» Quelle méthode suis-je et à quel type d’analyse est-ce que je m’applique? Mon résultat sera-t-il influencé par la présence d’hétéroscédasticité?
C’est la méthode des moindres carrés ordinaires, elle s’applique à la régression linéaire. Oui, elle sera influencée par la présence d’hétéroscédasticité.
Je suis le terme d’erreur ε_i , de quelles manières puis-je être interprété?
o Erreur de prédiction : la différence entre les prédictions du modèle et les valeurs observées.
o Bruit : facteur aléatoire non expliqué par le modèle linéaire.
o Résidus : toutes variables qui déterminent la valeur de y mais qui ne sont pas dans le modèle.
Explique dans tes mots ce que sont les coefficients standardisés et dans quel contexte il est bon de les utiliser.
Ce sont les coefficients qu’on obtiendrait si on converti toutes les variables en score de Z. Ça permet de mettre les variables sur la même échelle et de les comparer plus facilement.
Pourquoi dans le calcul de l’estimateur des moindres carrés, présenté dans le cours comme étant εi= ∑(yi- (ŷi )^2, doit-on effectuer l’opération “au carré” ? Développez la réponse en expliquant les termes de cette équation.
Il s’agit en fait de la somme des erreurs au carré.
Pourquoi est-ce important d’investiguer les résidus?
Pour savoir s’ils sont aléatoires ou non. Les résidus doivent être aléatoires, donc pas d’hétéroscédasticité ni d’autocorrélation.
Expliquez ce qu’est la méthode des moindres carrés ordinaires (MCO) et en quoi est-elle utile.
Elle vise à tracer une droite de prédiction en plein cœur du nuage de points pour minimiser les erreurs de prédictions.
À quoi sert le test de signification globale lors d’une régression linéaire et avec quel test pouvons-nous le calculer?
Il permet de vérifier si le modèle de régression linéaire s’adapte mieux à un ensemble de données qu’un modèle sans variables prédictive (donc, le hasard). On peut le calculer avec la statistique de F.
Pourquoi faut-il faire attention au cas de multicolinéarité des variables ? Comment peut-on estimer son existence ?
Parce qu’elle augmente les erreurs types des coefficients, donc ça augmente l’incertitude du modèle. Pour l’estimer, on peut utiliser le facteur d’inflation de variance (ou le VIF).
Une collègue me dit qu’elle a trouvé une corrélation entre la consommation de chocolat chaud et les dérapages routiers. Je doute fortement de ce modèle et lui dit que son coefficient est probablement biaisé. Pourquoi est-ce le cas? Quelle serait la véritable raison/explication d’une corrélation dans le modèle?
On parle du biais de variable omise. En bref, une autre variable pourrait en fait être la cause de nos deux observation.
Nous utilisons une régression linéaire pour voir quelle variable prédit le mieux le nombre d’homicides. Dans le modèle de régression, nous avons la variable dépendante continue (Y) du nombre d’homicides, et les variables indépendantes (X) du moment de la journée (matin, après-midi, soirée/nuit) et du nombre d’heures passées à l’extérieur de son domicile. On s’intéresse à la variable catégorielle du moment de la journée. Ainsi, la formule de notre régression ressemble à ceci : homicide=b_0+b_1 heures+b_2 après-midi+b_3 soirée/nuit
Qu’est-ce qu’il en est de la variable matin; qu’est-ce qui lui est arrivée?
Comment va-t-on maintenant interpréter le nombre d’homicides en fonction de la variable du moment de la journée, si le coefficient b2 = 1.4 et le coefficient b3 = 3.5?
Qu’est-ce qu’il en est de la variable matin; qu’est-ce qui lui est arrivée?
Il s’agirait de b_0, puisqu’elle agit comme l’ordonnée à l’origine.
Comment va-t-on maintenant interpréter le nombre d’homicides en fonction de la variable du moment de la journée, si le coefficient b2 = 1.4 et le coefficient b3 = 3.5?
On pourrait dire que les homicides augmentent en fonction du moment de la journée pour atteindre un pic durant la soirée/nuit.