COURS 11: La régression linéaire Flashcards
Quelle est la différence entre la corrélation et la régression?
Corrélation : établir la relation entre 2 variables
Régression: Prédire la valeur d’une variable (Y) à partir d’une autre variable (X)
V/F Lors de la régression, un lien de causalité est établi entre la valeur X et Y.
FAUX
Lors de la régression, quel nom donne-t-on à la variable dépendante et indépendante?
VI: Variable prédictrice (X)
VD: Variable prédite (Y)
V/F La variable prédictrice peut devenir la variable prédite et vise-versa
Vrai, puisqu’elles ne sont pas causales
Sur quoi repose la qualité de la prédiction d’une régression?
La force de la relation linéaire (avec une corrélation parfaite, on aurait une prédiction parfaite).
V/F La droite de régression n’est pas la droite qui permet de faire la meilleure prédiction de Y à partir de X.
Faux, c’est la droite qui permet la meilleure prédiciton
La droite de régression ……. l’erreur et passe par un ……. de points.
- Minimise
- Maximum
V/F La droite de régression passe par la moyenne des points du diagramme de dispersion.
VRAI
V/F Il existe une infinité de droite de régression pour un nuage de points.
FAUX, il existe une infinité de droites, mais seulement une seule droite de régression.
Donne l’équation de régression
Ŷ=bx + a
Ŷ: valeur de Y prédite
X: valeur du prédicteur (connu)
b: pente de la droite de régression (coefficient de régression)
a: ordonnée à l’origine (constante)
Donne 2 propriété de la droit tracée par l’équation de régression.
- Minimise les distances entre la droite et les points
- Permet la meilleure prédiction de Ŷ à partir de X
V/F Avec la régression linéaire multiple, il y aurait plusieurs prédicteurs, tandis qu’avec la régression linéaire simple il n’y a qu’un seul prédicteur.
VRAI
V/F Même avec une corrélation parfaite, le Ŷ diffèrera du Y réel.
FAUX, il sera identique (aucune erreur). En absence d’une corrélation parfaite, les Y réels seront en dessous ou au dessus de la droite de régression.
Donne la formule qui donne l’erreur de prédiction.
Erreur de prédiction = Y - Ŷ
V/F L’erreur de prédiction peut aussi être appelée résidu
Vrai
En régression, on cherche la droite qui …… les résidus.
minimise
Lors du calcul de la droite, on cherche à minimiser Σ(Y-Ŷ)^2. Pourquoi met-ton la somme des différence au carré?
Pour ne pas avoir une somme de 0, ce qui produirait si on additionnait seulement les écarts par rapport à la moyenne.
Comment calcule-t-on le b de la droite de régression/ le coefficient de régression?
b= COVxy/Sx^2
Quelle est la différence entre la formule du coefficient de régression et celle du coefficient de corrélation?
1.Régression : divisée par Sx^2
2. Corrélation: divisé par Sx * Sy
Comment calcule-t-on le a de la droite de régression?
a= Y-bx
Quelle est la signification de l’ordonnée à l’origine (dans certains contextes)?
Utile lorsqu’on veut connaître le niveau de base d’une valeur. Ex: si on prédit le temps de réaction avec alcool, l’ordonnée à l’origine indique le temps de réaction SANS alcool.
- Attention, l’ordonnée à l’origine n’a pas toujours de signification particulière.
Qu’elle est la signification du coefficient de régression (b)?
Le nombre d’unités de changement de Ŷ en fonction d’UNE unité de X.
Que signifie β?
Le coefficient de régression STANDARDISÉ. En régression simple, β = r (coefficient de corrélation). Changement Ŷ de en fonction d’un écart-type.
Pourquoi utiliser β au lieu de b?
- Indépendant de l’échelle de mesure
- Utile pour comparer l’importance relative de différents β (plusieurs variables prédictrices en régression multiple).
Quel est le meilleur indice de la qualité de la prédiction?
r^2: plus r^2 est grand, meilleure est la prédiction.
Que signifie r^2/ p^2 dans une régression linéaire simple?
r^2= % de la variance de Y qui est prédite par X
Sur quoi le test d’hypothèses de régression est faite?
Sur r^2. Si la corrélation est significative, la régression l’est nécessairement.
V/F Si un r^2 est significatif, le b l’est nécessairement.
Vrai
Avec quel test vérifions-nous l’hypothèse r^2 ≠ 0?
Test F
V/F Lors d’un test F sur r^2, on utilise la même logique de celle de l’ANOVAM soit un rapport de variances.
VRAI
Que compare-t-on dans le test F sur r^2?
Variabilité de Y attribuable à X VS variabilité de Y non attribuable à X. Si X explique un % suffisant de la variance de Y, on conclu que X permet de prédire Y dans la population.
Donne les formules et la signification des différentes sommes de carrés de la démarche inférentielle de la régression.
- SCy: Variation totale de Y = Σ(Y-Ȳ)^2
- SCŶ: Variation de Y expliquée par X = Σ(Ŷ-Ȳ)^2
- SCrésiduelle: Variation de Y non expliquée par X = Σ(Y-Ŷ)^2
V/F Dans un test avec une droite de régression, le degré de liberté résiduell est toujours égal à 1.
FAUX, c’est le degré de liberté de régression qui est toujours égal à 1.
Quelle est la formule du r^2?
r^2= SCrégression/ Sctotal
Donne les formules du CMrégression, CMrésiduel et du F dans une démarche inférentielle de régression.
CMrégression = SCrégression/ dlrégression
CMrésiduelle= SCrésiduelle/ dlrésiduelle
F= CMrégression/ CMrésiduelle
Quels test SPSS effectue lors du test de la pente?
- Test F pour vérifier r^2≠o
- Test t pour vérifier b≠0
V/F Lors d’une régression simple (un seul prédicteur), les résultats des 2 test de la pente sont identiques.
VRAI, le test t n’est utile que pour la régression multiple.
Donne les hypothèses statistiques de la démarche inférentielle sur la régression (H0 et H1).
H0: p^2 = 0
H1: p^2 ≠ 0
MÊMES QUE POUR CORRÉLATION, on vérifie la présence d’une relation linéaire.
V/F Lors de la démarche inférentielle sur la régression, il est possible de poser des hypothèses statistiques unilatéral et bilatéral.
FAUX, pas question de uni-bilatéral (comme avec ANOVA)
Effectue l’étape 3 de la démarche inférentielle sur régression linéaire simple.
Étape 3: Préciser le modèle utilisé et effectuer l’analyse
a) Choix du test utilisé: Régression linéaire simple
b) Conditions d’utilisation:
* n est suffisament grand (n>20)
* Variables sur une échelle intervalle ou ratio
* Relation linéaire entre les 2 variables
* Homogénéité des variances
* Variables distribuées normalement
c) Distribution d’échantillonnage du F de fisher avec 1 dl au numérateur et (n-2) dl au dénominateur
d) Calculs du r^2, du Fobs et trouvr valeur de F associée à au a (Fcritique)
Lors de la démarche inférentielle sur régression linéaire simple sur SPSS, où trouve-t-on ces variables?
* Le r
* le r^2
* les dl
* Fobs
* p du F (sig)
* a
* b
* β
* t
* p du t (sig)
Tableau: Corrélation OU Récapitulatif des modèles
* Le r: Corrélation de pearson, rendement / BDI OU 1/R (n’indique pas la direction)
Tableau: récapitulaif des modèles
* le r^2 : 1/ R-deux
Tableau: ANOVA
* les dl: 1 Régression/ ddl (régression) ET 1 de Student/ ddl (résidu)
* Fobs: 1/ F
* p du F (sig): 1/Sig
Tableau: Coefficient
* a: Constante/ B
* b: BDI/ B
* β: BDI / Bêta
* t: BDI/ t
* p du t sig : BDI/ sig
Vraiment pas claire, ouvre tes notes… LOL