CM 1 et TD 1 : Regression Simple Flashcards
Pourquoi utilisee une regression linéaire?
On utilise la regression linéaire simple pour étudier la relation entre 2 variables avec l’idée de prédire l’une à partir de l’autre.
Un modèle de régression s’appuie sur la covariance entre les deux variables ; quand l’un varie, l’autre varie aussi.
Explique le modèle mathématique de la regression simple
Une regression simple exprime la relation entre la variable explicative (variable prédictrice/prédicteur) et la variable à prédire (variable supposée dépendante de la variable explicative).
Cette relation peut s’écrire selon le modèle suivant :
- En référence à la population parente :
𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑒 = 𝛽0 + 𝛽1𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑟𝑖𝑐𝑒 + 𝜀i - En référence à l’échantillon :
𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑒 = 𝑏0 + 𝑏1𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑟𝑖𝑐𝑒 + 𝑒i
Le coefficient b1 est la pente (l’facteur) de la regression ligne tandis que b0 est l’ordonnée à l’origine (le intercept) de celle-ci.
Ce modèle intègre une part d’erreur qui correspond à tout ce que le modèle ne peut pas expliquer des données (𝜀 ou 𝑒 dans l’équation).
Comment peut-on évaluer la qualité prédictive de la regression simple?
Le modèle considère qu’il y a un part d’erreur dans la prédiction.
L’indice R^2 (coefficient de détermination) est un indicateur de la qualité de la prédiction du modèle.
𝑅^2 × 100 = %, soit la part de variance commune
𝑅^2 = 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑝𝑟𝑒𝑑𝑖𝑡𝑒 / 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑒𝑒
Quels sont les tests inférentiels permettant de tester une régression?
Pour les paramètres b0 et b1, il faut regarder le test t
respectivement associé à chaque paramètre.
Pour les indices R et R² il faut regarder le test F
associé.
Qu’est-ce qu’une p-value ou seuil de significativité?
Le seuil de significativité d’un test correspond à la probabilité de conclure à l’existence d’un effet alors qu’en réalité il n’existe pas ; p est donc le risque de se tromper.
En psychologie la significativité est fixée à .05 (5%).
- Si p >.05, alors le test n’est pas significatif
Qu’est-ce qu’une intervalle de confiance
L’IC contient l’ensemble des valeurs parentes du coefficient de régression compatibles avec les données observées.
- Si la valeur 0 se trouve à l’extérieur de l’IC95%, alors
on peut rejeter H0 avec un risque d’erreur ≤ 5%. - Si la valeur 0 se trouve dans l’IC95%, alors cela
signifie que le cas où b1=0 est possible
donc que l’absence de prédiction est possible
= constat d’ignorance
Qu’est-ce qu’une taille d’effet?
Les indices tels que le R² (ou eta² partiel, ou d de Cohen, ou PRE) sont aussi appelés indicateurs de taille de l’effet.
- 0-0.04 ➡️ petit
- 0,04-0,16 ➡️ moyen
- >0,16 ➡️ grand