Cours 9 : Relations entre variables numériques = régression Flashcards

You may prefer our related Brainscape-certified flashcards:
1
Q

Qui-suis-je? « paramètre utilisé pour prédire la moyenne de la variable Y pour une valeur donnée de la variable X »

A

Régression

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Qui-suis-je? « méthode qui permet de mesurer la force de l’association entre les variables, comme la corrélation, mais aussi de prédire quelle devrait être la valeur moyenne d’une variable réponse pour une valeur donnée d’une variable explicative »

A

Méthode de régression linéaire

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

La régression permet de modéliser le comportement d’une variable réponse _______ (Y)
en fonction d’une ou de plusieurs variables explicatives _________ (X1, X2, X3…)

A
  1. Dépendante

2. Indépendante

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qu’est-ce qu’une régression linéaire simple?

A

quand on étudie seulement la relation entre la variable dépendante Y et une seule variable explicative X
.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Vrai ou faux? « À chaque valeur xi de la variable explicative X, correspond une distribution de valeurs yi de la variable réponse Y »

A

Vrai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Que permet de faire l’équation de régression linéaire?

A

Elle permet , à partir du modèle linéaire décrit ci-dessus, d’estimer la moyenne de cette distribution des valeurs possibles yi en réponse à une valeur donnée xi

ŷ  = β0+β1x
ŷ = moyenne de la variable réponse Y estimée par la droite de régression
x = valeur de la variable explicative X
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qui-suis-je? « C’est le taux de changement moyen de Y

selon X »

A

La pente β1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Vrai ou faux ? « la pente de la droite de régression peut être positive ou négative (comme la covariance). »

A

Vrai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Qui-suis-je? « valeur moyenne Y¯ lorsque la variable explicative X=0 »

A

L’ordonnée à l’origine β0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

À partir de quel moment peut-on calculer l’intervalle de confiance autour de β0 et β1?

A

Après avoir vérifié que les résidus sont normalement distribués autour des valeurs prédites par la régression (condition 4), on peut calculer des intervalles de confiance autour de nos paramètres.

** Remarquez comme ce calcul fait intervenir une statistique de test de Student t avec n−2 degrés de liberté et une forme d’Erreur standard SE, propre à chaque paramètre**

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Vrai ou faux? « on ne peut pas établir l’intervalle de confiance autour de la valeur moyenne prédite ŷi par la régression pour chaque valeur xi de la variable explicative »

A

Faux. on peut. De plus, on appelle ça la « bande de confiance »

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Vrai ou faux? « On peut établir l’intervalle de confiance autour des valeurs individuelles de Y qui pourraient être observées à chaque valeur xi si on répétait l’échantillonnage. »

A

Vrai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quel est l’autre nom qui est parfois employé pour décrire la bande de confiance?

A

bande de l’intervalle des prédictions

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Vrai ou faux? « une valeur échantillonnée qui se situe au-delà de l’intervalle de confiance à 95% des prédictions individuelles peut être considérée comme une valeur extrême »

A

Vrai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Vrai ou faux? « les valeurs négatives prédites par ces intervalles de confiance n’ont aucun sens »

A

Vrai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quelles sont les hypothèses statistiques pour la régression linéaire ?

A

On veut tester les hypothèses statistiques suivantes :

H0: le paramètre βj n’est pas différent de 0 ⟹βj = 0

H1 : le paramètre βj est différent de 0 ⟹βj ≠ 0

17
Q

Vrai ou faux? « Parce que les paramètres βj sont les paramètres moyens, le meilleur test pour réfuter l’hypothèse nulle est un test de Student »

A

Vrai

18
Q

Quelle est la statistique de test pour la régression linéaire?

A

La statistique de test pour ce test est :
t calculée = (βj−0)/SEj

et la valeur critique correspondante est :
t dl = n−2, α/2
.

19
Q

Dans quels cas (3) peut-on rejeter l’hypothèse nulle H0 d’une régression linéaire?

A
  1. Quand t calculée > t critique
  2. Quand la p-value < α
  3. Quand l’intervalle de confiance autour de βj exclue 0
20
Q

Vrai ou faux ? « pour une régression linéaire simple, tester si la pente est significativement différente de 0 revient à tester si la régression est significative »

A

Vrai

21
Q

Qui suis-je? « Test pour lequel on compare des variances et on fait un test de F pour lequel on calcule le ratio entre la variance de régression et la variance résiduelle »

A

Test global sur la régression

22
Q

Quelles sont les hypothèses statistiques du test global sur la régression ?

A

Les hypothèses statistiques testées sont :

H0 : la régression n’explique pas la variance de la variable réponse ⟹ yi = β0 + ϵi

H1 : la régression explique une part significative de la variance de la variable réponse ⟹yi = β0 + (β1 ⋅ xi) +ϵi

23
Q

Qu’indique l’hypothèse nulle d’un test global sur la régression?

A

si la régression n’est pas significative, alors la variable réponse Y ne dépend pas de la variable explicative X

Dans ce cas, les valeurs échantillonnées yi peuvent simplement s’expliquer (être calculées) par la somme de la moyenne Y¯=β0 et d’une erreur (variable aléatoire) ϵi
.

24
Q

Qu’indique l’hypothèse alternative d’un test global sur la régression?

A

Indique la a situation complémentaire dans laquelle la variable réponse Y dépend de la variable explicative X

Dans ce cas, les valeurs échantillonnées yi s’expliquent par la somme de l’ordonnée à l’origine β0, d’une erreur ϵi, ainsi que du taux de variation de Y par rapport à
X = β1⋅xi
.

25
Q

Quelles sont les trois différentes sources possibles de variance des valeurs yi?

A
  1. moyenne Y¯
  2. variance de régression (différence entre les valeurs prédites et la moyenne Y-)
  3. Variance résiduelle ( différence entre les valeurs échantillonnées yi et la valeur prédite par la régression ŷi)
26
Q

Dans quels cas (2) peut-on rejeter l’hypothèse nulle H0 d’un test global sur la régression?

A
  1. Quand Fcalculée > F critique

2. Quand p-value < alpha

27
Q

Qu’est-ce qu’on doit calculer si on veut savoir quelle part de la variance de la variable Y est expliquée par la régression?

A

le coefficient de régression R2

28
Q

Qui-suis-je? «Je permet de quantifier la contribution de la variance de régression à la variance totale de la variable Y »

A

coefficient de régression R2

29
Q

Vrai ou faux? « le coefficient de régression R2 présente des ressemblances avec l’ANOVA »

A

vrai

30
Q

Vrai ou faux? « Pour une régression linéaire simple (une variable explicative X), R2 est en fait le carré du coefficient de corrélation de Pearson. »

A

Vrai

31
Q

Dans quel intervalle de valeurs peut-on retrouver R2?

A

0 ≤ R2 ≤1

.

32
Q

Quelles sont les 4 conditions d’application pour que les calculs de l’estimation des paramètres de l’équation de la droite de régression linéaire soient valides?

A
  1. À chaque valeur de X, l’échantillonnage de la variable réponse Y est indépendant et aléatoire;
  2. À chaque valeur de X correspond une distribution de valeurs Yi normalement distribuée et pour laquelle Y¯i=ŷi (la moyenne est égale à la prédiction de la régression) ⟹relation linéaire entre les variables Y et X
  3. À chaque valeur de X, la variance de Y est indépendante de X ⟹ homoscédasticité;
  4. L’erreur de mesure pour X est négligeable comparée à celle pour Y
33
Q

Qui-suis-je? « Je suis la condition d’application la plus importante (car j’affecte à la fois la significativité et la force (R2) de la régression linéaire) et la plus souvent oubliée?

A
  1. L’erreur de mesure pour X est négligeable comparée à celle pour Y
34
Q

Vrai ou faux ? « Les 3 premières conditions d’application du R2 se vérifient sur les résidus »

A

Vrai

35
Q

Dans quel cas est-ce que les 3 premières conditions d’application sont respectées?

A

Si les résidus forment un nuage de point aléatoirement réparti autour de la ligne horizontale y=0

** pas de valeur extrêmes ! **

36
Q

Sur R, quelles sont les quatre fonctions à utiliser pour valider les que le 4 conditions d’application du R2 sont respectées?

A
  1. Global Stat : test global sur la validité de la régression ⟹ une déviation mineure par rapport à une condition d’application particulière pourrait ne pas empêcher la régression d’être valide dans son ensemble;
  2. Skewness & Kurtosis : pris ensemble, ces tests vérifient la normalité de la distribution des résidus;
  3. Link Function : teste la linéarité de la relation entre les variables;
  4. Heteroscedasticity : teste l’homogénéité des variances des résidus (hétéro/homoscedasticité).
37
Q

Que devons-nous faire lorsqu’une des conditions d’application du R2 n’est pas respectée?

A

Transformer en log les données de la variable dépendante (y)

38
Q

Que permet la transformation des données dépendantes?

A

Elle permet de respecter les conditions d’application de la régression linéaire ET de diminuer la variabilité de Y, ce qui donne un R2 plus élevé