Cours 8 - Régression linéaire simple Flashcards
Qu’est-ce qui distingue la corrélation et la régression linéaire simple? (différences et ressemblances)
similaire :
- 2 variables continues dans les 2 cas
- on veut établir la relation entre ces 2 variables continues
Différence :
- Régression = très important d’identifier une variable prédictrice (VI) et une VD comme variable prédite
Qu’est-ce que représente la droite de régression?
- Passe entre tous les points, au milieu du nuage de points (à travers un maximum de points)
- Minimise l’erreur de prédiction (soit l’écart entre les valeurs prédites et observées)
- Minimise l’espace entre la droite et les points
- Représenter le mieux possible les scores des participants et la tendance observé entre les points
- LE PLUS IMPORTANT : La droite de régression représente le meilleur ajustement linéaire entre les variables (entre x et y)
Comment on place les variables sur le graphique de la régression linéaire simple?
Axe des x = variable prédictrice
Axe des y = variable prédite, celle qu’on veut prédire.
1 point dans le graphique = le score de 1 participant pour la variable x ET y en même temps
Quelle forme prend l’équation de la droite de régression?
Ychapeau = bX +a
Ychapeau = = la valeur prédite de Y
b = la pente de la droite = coefficient de régression
de combien change Y pour un changement d’une unité de X
La pente b, le coefficient de régression, représente le taux de changement de Y en fonction de X
a = l’ordonnée à l’origine (la valeur de Ychapeau lorsque X = 0)
Peut représenter une constante ou le minimum de la variable prédite.
p.e. un temps de réponse minimum
X = la valeur du prédicteur
Qu’est-ce que l’erreur de prédiction (ou résidu) dans la droite de régression linéaire simple?
l’écart entre les valeurs prédites et les valeurs observées (somme des valeurs observé - valeurs prédites mis au carré)
MAIS, on a toujours une erreur
C’est plus problématique si c’est égal sinon rien vrm à prédire
L’analyse statistique vise à trouver les valeurs b et a de l’équation de régression pour lesquels l’erreur de prédiction est aussi petite que possible
Qu’est-ce que le coefficient de régression standardisé? Pourquoi on l’utilise?
Il est préférable d’utilisé de coefficient standardisé, car il est indépendant des échelles de mesures
Nous permet de standardisé nos variables = moyenne de 0 et ÉT de 1 (équivalent au score Z)
Met nos variables sur la même échelle
un seul coefficient = représente le lien entre VI et VD si même échelle (DONC, la pente entre X et Y)
Quel est l’indice d’ajustement utilisé dans la régression simple?
L’indice d’ajustement de la droite de régression le plus utilisé est le r2 (ou R2 pour la régression multiple)
Représente le pourcentage de variance de Y expliqué par X
Pour obtenir le R2, besoin des SC :
r2 = SCrégression / SCy
Qu’est-ce que nous utilisons dans la régression pour caractériser la variabilité?
En régression, nous utilisons les SC plutôt que les variances pour caractériser la variabilité.
Qu’est-ce que la SCrésiduelle?
Variabilité de Y qui n’est pas expliqué par X
Variance qui n’est pas expliqué par la régression
Variabilité naturelle de Y
Quelle est la particularité du test d’hypothèse dans la régression linéaire simple?
Quel but, comment on le calcule?
On retrouve 2 tests d’hypothèses
1er test global pour tester si la corrélation est significativement différent de 0
test significatif = lien significatif entre X et Y
Calcul : Ratio F de carrés moyens : CMrég / CM résiduelle
2e test sur coefficients de régressions
veut savoir si le coefficient est plus grand que 0
Calcul : test t = coefficient de régression / erreur-type du coefficient (soit l’écart-type de la distribution d’échantillonnage de b)
BUT DES TESTS
afin de vérifier si l’équation explique une part de variance plus grande que le hasard
Quels sont les postulats à respecter pour la régression linéaire simple?
- Variables continues
- Indépendance des résidus
- Normalité des résidus
- Linéarité : relation linéaire entre les deux variables
- Homoscédasticité/homogénéité des variances
- Absence de données extrêmes.
Comment interpréter la droite de régression?
a = constante, ordonné à l’origine : quand X est à 0, quelle est la valeur du Y prédit (Ychapeau). Bref, la valeur minimale de la variable prédite
b = coefficient de régression : le taux de changement de Y en fonction d’un changement d’1 unité de X
Par contre, on ne peut interpréter comme étant un lien de cause à effet, c’est seulement une prédiction
Vrai ou faux : la régression représente un lien de cause à effet
FAUX
C’est une prédiction corrélationnelle
Qu’est-ce que SCx dans la régression?
la variabilité de X
(variabilité du prédicteur)
Qu’est-ce que SCy dans la régression?
La variabilité de Y
(variabilité de la variable prédite)