cours 8 - régression linéaire Flashcards
- Je réalise une régression linéaire bivariée lors d’une analyse, la professeure me dit que j’ai un biais de variable omise. Expliquez la signification de ce biais? Puis qu’est-ce que je pourrais faire pour réduire la probabilité d’avoir un estimateur biaisé?
Le biais de variable omise est présent lorsque le coefficient que nous calculons n’estime pas la relation entre les deux variables directement,
il est biaisé par une variable qui n’est pas dans notre modèle; la variable omise.
Pour réduire la probabilité d’avoir un estimateur biaisé, il faut effectuer un régression linéaire multivariée pour ajouter des variables au modèle et diminuer l’incertitude.
Si j’ai un coefficient de détermination (R^2) de 0,51. Comment interprétons-nous la relation entre X et Y ?
51% de la variance de la variable indépendante (Y) est expliquée par la variable dépendante (X).
- Lorsque l’on s’intéresse à la régression, à quoi correspondent les coefficients standardisés ?
Les coefficients standardisés sont obtenus lorsque l’on converti toutes les variables en z-score avant de calculer la régression. Sert à pouvoir comparer des variables qui n’ont pas la même échelle.
- Lors d’une régression linéaire, quelle est la différence entre l’homoscédasticité et l’hétéroscédasticité des termes d’erreurs? Explique-moi lequel est favorable et pourquoi.
L’homoscédasticité représente une variance similaire pour chaque observation. L’hétéroscédasticité représente une variance non-similaire.
Lorsque la variance est hétéroscédastique, les coefficients deviennent moins précis.
L’homoscédasticité est donc favorable (c’est aussi un postulat de la régression linéaire)
Quelles sont les trois interprétations complémentaires de l’erreur εi? Nommez et expliquez chacune d’entre elles.
- Erreur de prédiction : différence entre les prédictions du modèle et les valeurs observées
- Bruit : facteur aléatoire non expliqué par le modèle linéaire
- Résidus : toutes variables qui déterminent la valeur de y, mais qui ne sont pas dans le modèle
- Qu’est-ce que l’autocorrélation des termes d’erreur et quelles sont les étapes pour la détecter?
Autocorrélation : lorsque les résidus corrèlent ensemble.
Pour la détecter :
- Inspecter les résidus visuellement (nuage de points)
- Test d’hypothèse Durbin-Watson (DW) = détecter l’autocorrélation
- Qu’est-ce que la méthode des moindres carrés ordinaires (MCO). Autrement dit, qu’est-ce qu’elle permet de faire?
la méthode des moindres carrés ordinaires identifie la droite de régression qui minimise la somme des erreurs au carré des distances verticales entre les nuages de points et elle-même.𝐌𝐢𝐧 (MIN∑𝜺_𝒊^𝟐)
- Qu’est-ce que le problème de la multicolinéarité?
Multicolinéarité : une forte relation de dépendance linéaire entre plus de deux variables explicatives (car le modèle ignore l’intersection = entre noyade et crème glacée)
la multicolinéarité augmente l’incertitude d’un modèle
Dans l’équation de la ligne de régression y = ax + b, il existe une relation entre la pente ‘‘a’’ et la variable ‘‘x’’ qui impacte la valeur de la variable ‘‘y’’. Pouvez vous décrire en quelques mots la signification de la pente ‘‘a’’ en fonction de sa relation avec les variables ‘‘x’’ et ‘‘y’’ ?
La pente représente que l’augmentation d’une unité de x représente une augmentation de a unité de y.
- Dans une analyse de régression linéaire, deux types de tests d’hypothèses doivent être effectués. Spécifiquement, qu’est-ce que signifie le test de signification globale ?
Test de signification globale permet de vérifier si le modèle de régression linéaire s’adapte mieux à un ensemble de données qu’un modèle sans variable prédictives.
L’hypothèse nulle est que le meilleur modèle explicatif est celui sans prédicteur:
𝐻_0: 𝑦_𝑖=𝑏_0+𝜀_𝑖
L’hypothèse alternative est que le meilleur modèle explicatif est celui avec un prédicteur
𝐻_1: 𝑦_𝑖=𝑏_0+〖𝑏_1 𝑥_𝑖+ 𝜀〗_𝑖
- À quoi sert le facteur d’inflation de variance (VIF) ? À partir de quelle valeur considérons-nous que le VIF est problématique ?
Le VIF estime de combien la variance d’un coefficient est augmentée en raison de sa relation linéaire avec d’autres variables explicatives. Un VIF au-dessus de 5 est problématique.
Je suis un étudiant de l’Université de Montréal et dans le cadre de mon cours de méthodologie quantitative, je me questionne quant à la différence entre le R^2 classique et le R^2 ajusté. Peux-tu m’expliquer la fonction du R^2 (ajusté et dans quelles situations il est utilisé?
Dans une régression linéaire multivariée, l’ajout de variables explicatives entraîne une augmentation de la valeur de R² (% de la variance de Y expliquée par X). Le R² ajusté contrôle pour cette augmentation en pénalisant le R² en fonction du nombre de variables explicatives ajoutées au modèle.
Le R² ajusté est donc utilisé comme information additionnelle lorsqu’il y a plusieurs variables dans le modèle.