Cours 9 : Relations entre variables numériques = régression Flashcards
Qui-suis-je? « paramètre utilisé pour prédire la moyenne de la variable Y pour une valeur donnée de la variable X »
Régression
Qui-suis-je? « méthode qui permet de mesurer la force de l’association entre les variables, comme la corrélation, mais aussi de prédire quelle devrait être la valeur moyenne d’une variable réponse pour une valeur donnée d’une variable explicative »
Méthode de régression linéaire
La régression permet de modéliser le comportement d’une variable réponse _______ (Y)
en fonction d’une ou de plusieurs variables explicatives _________ (X1, X2, X3…)
- Dépendante
2. Indépendante
Qu’est-ce qu’une régression linéaire simple?
quand on étudie seulement la relation entre la variable dépendante Y et une seule variable explicative X
.
Vrai ou faux? « À chaque valeur xi de la variable explicative X, correspond une distribution de valeurs yi de la variable réponse Y »
Vrai
Que permet de faire l’équation de régression linéaire?
Elle permet , à partir du modèle linéaire décrit ci-dessus, d’estimer la moyenne de cette distribution des valeurs possibles yi en réponse à une valeur donnée xi
ŷ = β0+β1x ŷ = moyenne de la variable réponse Y estimée par la droite de régression x = valeur de la variable explicative X
Qui-suis-je? « C’est le taux de changement moyen de Y
selon X »
La pente β1
Vrai ou faux ? « la pente de la droite de régression peut être positive ou négative (comme la covariance). »
Vrai
Qui-suis-je? « valeur moyenne Y¯ lorsque la variable explicative X=0 »
L’ordonnée à l’origine β0
À partir de quel moment peut-on calculer l’intervalle de confiance autour de β0 et β1?
Après avoir vérifié que les résidus sont normalement distribués autour des valeurs prédites par la régression (condition 4), on peut calculer des intervalles de confiance autour de nos paramètres.
** Remarquez comme ce calcul fait intervenir une statistique de test de Student t avec n−2 degrés de liberté et une forme d’Erreur standard SE, propre à chaque paramètre**
Vrai ou faux? « on ne peut pas établir l’intervalle de confiance autour de la valeur moyenne prédite ŷi par la régression pour chaque valeur xi de la variable explicative »
Faux. on peut. De plus, on appelle ça la « bande de confiance »
Vrai ou faux? « On peut établir l’intervalle de confiance autour des valeurs individuelles de Y qui pourraient être observées à chaque valeur xi si on répétait l’échantillonnage. »
Vrai
Quel est l’autre nom qui est parfois employé pour décrire la bande de confiance?
bande de l’intervalle des prédictions
Vrai ou faux? « une valeur échantillonnée qui se situe au-delà de l’intervalle de confiance à 95% des prédictions individuelles peut être considérée comme une valeur extrême »
Vrai
Vrai ou faux? « les valeurs négatives prédites par ces intervalles de confiance n’ont aucun sens »
Vrai