Séance 14 : La régression Flashcards

1
Q

Quel est le but de la régression?

A

Avec la régression, nous voulons prédire la valeur d’une
variable (Y) avec une autre (X):

  • VI: Variable prédictrice (X);
  • VD: Variable prédite (Y).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

V ou F : Il y a un lien causal entre les 2 variables.

A

Faux, nous effectuons cette prédiction sur la base
de la relation entre les variables. Ceci ne signifie pas que nous croyons qu’il existe un lien de causalité! Il
est toujours impossible de satisfaire les 3 conditions
essentielles pour un lien causal.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Comment sont liées la corrélation et la régression?

A

Si 2 variables sont reliées (corrélées), il est possible de faire des prédictions sur une variable à partir de l’autre variable.

• En ce sens, la régression linéaire et la corrélation sont
fréquemment rencontrées conjointement

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Exemples de variables utilisées.

A

Nb. de cigarettes Espérance de vie
Cote R Rendement Universitaire
Heures d’études Note à l’examen
Stress vécu Détresse psychologique

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Sur quoi repose la qualité de la prédiction?

A

La qualité de la prédiction repose sur la force de la
relation linéaire entre les deux variables en question.

• Plus la corrélation entre les variables est élevée, plus il sera facile de prédire une variable à partir de l’autre (plus les points sont proches de la droite de régression)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Comment effectuer la meilleure prédiction et minimiser l’erreur?

A

À l’aide de la droite de régression. Les valeurs prédites sont celles sur la droite. Plus les points sont proches de la droite, moins je fais d’erreurs,

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qu’est-ce que fait la droite de régression?

A

-La droite permet d’effectuer la meilleure prédiction de Y
à partir de X.

-La droite minimise l’erreur de prédiction et passe par un maximum de points

La droite passe par la moyenne des points du diagramme de dispersion (par la moyenne de y et la moyenne de x en 1 point)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Comment calcule-t-on l’erreur de prédiction?

A

On calcule la différence entre la valeur réelle et la valeur prédite Ŷ.

L’erreur de prédiction (ou résidu) c’est la différence
entre le Y réel (observé) et le Y prédit (Ŷ).

=> pas grave si négatif, va s’annuler

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Qu’arrive-t-il à l’erreur de prédiction quand la corrélation est parfaite?

A

Avec une corrélation parfaite, chaque Ŷ sera identique au Y réel. Il n’y aura aucune erreur de prédiction

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Comment trouver la pente?

A

Regarder de comment y monte quand je monte de 1 x… ou delta y sur delta x

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quelle droite recherche t’on?

A

En régression, on cherche la droite qui minimise les
erreurs de prédiction ou résidus.

• On veut faire le moins d’erreurs possibles dans notre prédiction.

• On veut en quelque sorte rapprocher la droite le
plus possible de tous les points. On cherche le
meilleur compromis (linéaire) entre tous les points.

Autrement dit, on vise à minimiser les écarts entre les valeurs observées et les valeurs prédites.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Qu’est-ce que Σ (Y – Ŷ)2 ? Pourquoi au carré?

A

La sommation des erreurs de prédiction, on cherche à la minimiser.

Pourquoi la somme des différences au carré ?

• Pour ne pas avoir une somme de 0 (ce qui arrivera si on additionne des écarts positifs et négatifs)
§ Σ(Y – Ŷ) = 0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

V ou F : On souhaite que la somme des carrés soit la grande possible. La prédiction sera ainsi plus grande.

A

Faux, On souhaite que la somme de carrés soit la plus petite possible.

• Plus elle est petite, plus les points sont près de la
droite, meilleure est la prédiction (on fait moins
d’erreurs).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quelle est l’équation de régression?

A

Ŷ = bX + a

Où:
• Ŷ = La valeur prédite de Y;
• X = La valeur du prédicteur (on l’a déjà) (?);
• b = La pente de la droite de régression (coefficient
de régression)
• a = L’ordonnée à l’origine (valeur de Ŷ quand X = 0)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Comment on calcule a et b? Quel est le but?

A

On cherche les valeurs de b et de a qui minimisent
Σ(Y – Ŷ)2

=> qui donneront la fonction linéaire la moins ajustée, ou les points sont le plus près

b = COVxy/variance x

a = moyenne y - b x moyenne x

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quand la droite de régression est-elle utile en elle-même?

A

Pour prédire une valeur précise.

EX: Prédire le rendement d’un étudiant au baccalauréat
en Ψ (Ŷ) à partir de la cote R (X).

=> on va remplacer sa cote R dans la droite et on va obtenir Ŷ

=`> pas vraiment utile en psy, on veut plus savoir si au niveau théorique s’il y a une relation, est-ce POSSIBLE de prédire une variable à partir d’une autre (pas nécessairement le faire)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

À quoi peut servir l’ordonnée à l’origine (a) ?

A

Lorsqu’on veut savoir le
niveau de base:

• Ex: À quel résultat puis-je
m’attendre si un étudiant n’a pas étudié du tout ?

=43%

Mais, dans d’autres cas, l’ordonnée à
l’origine n’a aucune
signification

EX; Prédiction du score
d’autosatisfaction à partir du
poids d’un individu (si le poids est de 0, la personne n’existe pas…)

18
Q

Qu’est-ce que la pente (b)

A

La valeur de b est le nombre d’unités de changement
de Ŷ en fonction d’un changement d’une unité de X.

si b = 5000

si j’augmente de 1 (ex: an), j’augmente de 5000 (ex:$)

19
Q

Quel est un synonyme de la pente ? À quoi on le différencie?

A

Le coefficient de régression (b). On le différencie du coefficient de regression standardisé utilisé pour des données standardisées (ex: scores Z) qui est β (bêta)

20
Q

Pourquoi utiliser un coefficient de régression standardisé (bêta ou ß) ?

A

DIff calcul : sx = 1

• Indépendant de l’échelle de mesure;

• Représente le changement de Ŷ en fonction du changement
d’un écart-type (plutôt qu’une unité) de X (quand je monte de 1 écart-type)

• Utile pour comparer l’importance relative de différents ß (p.
ex., lorsqu’on a plusieurs variables prédictrices (x) en
régression multiple)

=> tous les standardiser pour pouvoir comparer

21
Q

Que dit r^2 de la prédiction?

A

r2 = Meilleur indice de la qualité de la prédiction.

Plus r2 est grand (plus la corrélation est forte), plus la prédiction
est bonne (moins de chance d’erreurs de prédiction).

pour trouver : b^2 ??

22
Q

Comment interpréter r^2 ?

A

r2 = % de variance de Y qui est prédite par X (ou contraire). => SE BASER SUR M.E.S

Ex; Avec un r2 = .35, je peux prédire 35% de la variation des
notes à l’examen (Y) à partir du nb. d’heures d’études (X).

23
Q

Pourquoi faire un test inférentiel? Que détermine le test?

A

Afin de savoir si le prédicteur permet vraiment de prédire la variabilité de Y dans la population

Le test d’hypothèse sur la régression détermine si la
prédiction de Ŷ par X est généralisable à la population.

24
Q

Sur quel coefficient est effectué le test inférentiel?

A

Sur le r^2 (même si en régression simple, équivalent avec r ou b).

On vérifie si r^2 =pas à 0 dans la population

25
Q

V ou F : Si la corrélation est significative, la régression ne l’est pas nécessairement

A

Faux, un r significatif indique automatiquement que b ≠ 0. (car m chiffre)

26
Q

Quelle logique utilise-t-on pour le test inférentiel?

A

La logique de l’ANOVA, on fait un rapport de variances.

On compare :

F = Variabilité de Y attribuable à X / Variabilité de Y PAS attribuable à X

=> On cherche à voir si X explique un % suffisant de la variance de Y, on
conclura que X permet bel et bien de prédire Y dans
la population.

27
Q

Qu’est-ce que SC totale?
SC régression?
SC résiduelle?

A

Variation totale de Y
Variation de Y expliquée par X
Variation de Y non expliquée par X

On fait le rapport : SC régression / SC résiduelle

28
Q

Comment on trouve r^2 avec le test inférentiel?

A

Variation de Y expliquée par X/Variation totale

SC régression/SC totale

**diff de rapport F avec CM régression et CM résiduel

29
Q

Quel sera le résultat de b dans l’ANOVA sur spss?

A

Lorsqu’il y a un seul prédicteur (régression simple), le
résultat sera identique à celui de l’ANOVA.

r^2 = b

30
Q

Étape 1 à la main

A

Identifier les hypothèses statistiques (H0 et H1)

H0 : ρ2 = 0

(L’humeur dépressive n’explique aucunement le rendement
au travail dans la population)

H1 = ρ2 ≠ 0

(L’humeur dépressive explique au moins une partie du
rendement au travail dans la population)

jamais de direction.

31
Q

Étape 2 à la main

A

Spécifier le seuil de signification alpha (α)

• α = .05

32
Q

Étape 3 à la main

A

a. Choix du test utilisé : Test de régression linéaire simple

b. Conditions d’utilisation :
- Homogénéité des variances
- Relation linéaire entre les deux variables
- Variables normalement distribuées
- 2 variables sur échelle de ratio ou d’intervalle
- n suffisamment grand (n>20)

c. Distribution d’échantillonnage du F de Fisher avec 1 dl au numérateur et n-2 dl au dénominateur
d. Calculs :

Fobs(1, 19) = donné

33
Q

Étape 4 à la main

A

Fcrit dans table du F (regarder niveau alpha et les dls)

Fobs(1, 43) = 4,89 > Fcrit(1, 43) = 4,08. on rejette H0.

34
Q

Étape 5 à la main

A

Conclusion selon le contexte

avec le r^2 (dit dans problématique ou sur spss)

On conclut que l’humeur dépressive permet de prédire 10% de la variance du rendement au travail.

• Si on avait accepté H0, on aurait dit que l’humeur
dépressive ne permet pas de prédire la variance du
rendement au travail.

35
Q

Le R dans récapitulatif des modèles est le r.

A

Non, sans la direction (il est tj positif)

36
Q

Quel est le r^2 (bon) ?

A

R-deux dans récapitulatif des modèles

37
Q

où est le F observé dans spss?

A

D dans ANOVA

38
Q

QUe représente sig?

A

Le p en bas duquel le r^2 est significatif

39
Q

Où est a sur spss?

A

juste sous A dans coefficients

40
Q

Où est b sur spss?

A

juste sous le a (ordonnée) dans coefficients

41
Q

Où est le bon r?

A

Bêta dans coefficients

42
Q

Étape 4 sur spss

A

F(1, 45) = 4,89. p = 0,03 < alpha = 0,05. On rejette H0.

seule diff sauf calcul spss