La regression linéaire simple Flashcards

1
Q

Que voulons nous faire avec la regression

A

Avec la regression, nous voulons prédire la valeur d’une variable (Y) avec une autre (X)
VI: valeur prédictrice (X)
VD: variable prédite (Y)
Si 2 variables sont reliées(correlées), il est possible de faire des prédictions sur une variable à partir de l’autre variable (la regression lineaire simple et la correlation sont frequemment rencontrées conjointement
La qualité de la prédiction repose sur la force de la relation lineaire entre les 2 variables en question
Plus la correlation est elevée entre les variables, plus il sera facile de predire une variable à partir d’une autre

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Droite de regression

A

La droite permet d’effectuer la meilleure prédiction de Y à partir de X
La droite minimise l’erreur de prediction et passe par un maximum de points
La droite passe par la moyenne des points du diagramme de dispersion
Avec une correlation parfaite, chaque ^Y sera identique au Y réel, il n’y aura aucune erreur de prédiction

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

En quoi consiste l’erreur de prediction?

A

À moins d’avoir une relation linéaire parfaite, il y aura des erreurs de prediction de Y faites à partir de la droite de regression
L’erreur de prediction c’est la difference entre le Y reel et le Y predit (^y)
erreur de prediction: (y-^y)
Pour chaque valeur de Y réel qui ne passe pas par la droite de regression, il y a un residu
En regression, on cherche la droite qui minimise les erreurs de prediction ou residus
On veut faire le moins d’erreurs de prediction possibles dans notre prediction
On veut en qq sorte, rapprocher la droite le plus possible de tous les points
On vise à minimiser les ecarts entre les valeurs observées et les valeurs prédites
On cherche donc a minimiser E(Y-^Y)2
Pourquoi la somme des differences au carré= pour ne pas avoir une somme de 0
E(Y-^Y)= 0
On souhaite que la somme de carrés soit la plus petite possible (plus elle est petite, plus les points sont près de la droite, meilleure est la prediction (on fait moins derreurs))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qu’est-ce qui compose la droite de regression?

A

^Y=bx+a
^Y: valeur predite de Y
X: valeur du predicteur
b= la pente de la droite de regression (coefficient de regression)
Le changement constaté de ^Y pour un changement d’une unité de X
a: ordonnée a l’origine (valeur de ^y quand x=0)
On cherche les valeurs de a et de b qui minimisent E(^Y-Y)2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Interpretation de la regression

A

-Parfois, l’ordonnée à l’origine (a) peut avoir une signification lorsqu’on veut savoir le niveau de base
Dans d’autres cas, l’ordonnée à l’origine n’a aucune signification
-La pente ou coefficient de regression (b)= la valeur de b est le nombre d’unités de changement de de ^Y en fontion d’un changement d’une unité de X
-Lorsqu’on parle du coefficient de regression pour les données standardisées, on attribue souvent à ce coefficient de regression standardisée B(beta) pour le distinguer du coefficient de regression non-standardisé(b)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Pourquoi utilisé un coefficient de regression standardisé?

A

-Independant de l’echelle de mesure
-Represente le changement de ^Y en fonction du changement d’un écart-type de X
B=r

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

coefficient de determination en regression (r2)

A

-Meilleur indice de la qualité de la prediction
Plus r2 est grand, plus la correlation est forte, plus la prediction est bonne (moins de chance d’erreurs de prediction)
r2: % de variance de Y qui peut etre predire par X
On s’attarde generalement à savoir si le predicteur permet vraiment de predire la variabilité de Y dans la population (nous ferons donc un test inferentiel)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Demarche inferentielle en regression

A

Le test d’hypothese sur la regression determine si la prediction de ^Y par X est généralisable à la population
La test inferentiel est effectué sur le r2
Un r significatif indique automatiquement que b pas egal a 0
Si la correlation est significative, la regression l’est necessairement

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Tableau résumé

A
SC regression : 1dl** CM=SCreg/dl reg
SC residuelle: (n-2)dl CM=SCres/dlres
F=CMreg/CMres
r2=variation de y expliquée par X/ variation totale de Y
r2= SCregression/SCtotale
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Étapes de la demarche inferentielle

A

Étape 1: Identifier les hypotheses statistiques
H0: p2=0
H1 p2 pas égal 0
Etape 2 : Specifier le seuil de signification alpha
Etape 3: a) Choix du test: Regression lineaire simplpe
b)Conditions d’utilisation
-n suffisamment grand (n>20)
-les 2 variables sont sur echelle intervalle/ratio
-Relation lineaire entre les 2 variables
-Homogénéité des variances
-Variables distribués normalement
c)Distribution d’echantillonnage du F de Fisher avec 1 dl (num) et (n-2)dl (denominateur)
d)Calculs
Étape 4: Decision statistique
On rejette H0 automatiquement si Fobs>Fcritique
Etape 5: Conclusion selon le contexte
Rejet H0: VD permet de predire (%r2) de la variance de VI

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

SPSS: Regression linéaire simple

A

SPSS nous induit en erreur : variable predite est la VD dans SPSS
Equation de la droite : ^Y=bX+a
Presentation des resulats: F(dlreg,dlres), p=
p>a :on ne rejette pas H0
p<a></a>

How well did you know this?
1
Not at all
2
3
4
5
Perfectly