Cours 6 Flashcards
En statistiques, qu’est-ce qu’une corrélation?
(Def + 4)
Relation entre 2 variables continues et mesurées chez les mêmes sujets
- Décrit la force d’une association
- Traite les 2 variables de façon symétrique
- Corrélation entre X et Y = corrélation entre Y et X
- Le coefficient de corrélation r ne dépend pas des unités de mesure (il n’a pas d’unité)
Qu’est-ce que le coeff de corrélation r?
Mesure du degré d’association LINÉAIRE entre 2 variables continues
= estimateur du paramètre affecté d’une erreur type qui permet de calculer la valeur p
=> r varie entre -1 et 1
–> Signe indique le sens de l’association entre 2 variables (corrélation positive/négative)
–> Valeur numérique absolue indique la FORCE d’association (corrélation parfaite (1)/moyenne (0,5))
–> Corrélation nulle quand r = 0
=> pente horizontale (corrélations positives et négatives se compensent)
Alternative du coeff r de Pearson (=distribution normale):
Coeff r de Spearman
(= distribution asymétrique/utilise les rangs)
But et utilité principaux du modèle de régression linéaire: (+ def)
- But: Prédire le comportement du système
-
Utilité:
=> Détecter des associations
-> calcul l’équation de la droite de régression
=> Mieux prédire Y
=> Ajuster une association pour l’effet d’autres variables - Ce modèle examine une association linéaire entre 2 variables continues
— Variable indépendante (X)
— Variable dépendante (Y) quantitative continue
Tous les modèles sont faux! Mais certains sont utiles (jamais une relation n’est strictement linéaire)
Qu’est-ce que la droite de régression linéaire?
= Meilleure droite permettant de décrire l’évènement
–> minimise la somme des écarts mis au carré (=qui minimise la variance résiduelle)
— On cherche les coeff a et b qui minimise les écarts verticaux entre les points
— Donne la valeur PRÉDITE d’une variable dépendante (Y) en fonction d’une variable indépendante (X)
2 coeffs utilisés dans l’équation de la droite de régression:
-
a = l’intercept/constance de la régression
-> Sert à ancrer la droite (dire si elle est plutôt vers le haut ou vers le bas)
-> le Y prédit si la X = 0 cm (exprimé dans l’unité de la variable dépendante Y) -
b = pente de la droite de régression
= De combien augmente Y lorsque X augmente d’une unité
-> décrit l’association entre le Y et X
a et b sont choisis de sorte à minimiser la somme des écarts au carré entre les valeurs observées et prédites
5 types d’association entre 2 variables:
- Causalité
- Causalité inverse
- Effet de confusion (C explique la relation entre A et B)
- Biais méthodologique (En réalité: pas de relation =problème dans la méthode)
- Hasard (En réalité: pas de relation = erreur type 1, hasard)
-> Absence d’association: pente = 0
À quoi correspond H0 pour le modèle de régression linéaire?
Pente nulle (absence d’association)
=> Valeur p pour teste si a= 0 ou b=0 -> Hypothèses nulles
- Équation de régression linéaire simple:
Y = a + bX
Attention : les modèles Y = a + bX et X = a + bY sont différents
Exemple d’équation de régression linéaire multiple
Exemple le poids en fonction de la taille, mais aussi du sexe
-> variable dépendante = le poids
-> variables indépendantes = taille (quantitative) et sexe (qualitative)
Poids = a + b x Taille + c x Sexe
Avec c=0 pour Femme et c=1 pour Homme ou l’inverse
Qu’est-ce que la régression en statistiques? (4)
- Décrit l’influence d’une variable sur l’autre (caractérise l’association)
- Distingue variable dépendante (Y) et variable indépendante (X)
- Coefficient de régression de Y sur X ≠ Coefficient de régression de X sur Y (asymétrique)
- Les coefficients de régression dépendent des unités de mesure
Qu’est-ce que le coeff de détermination r2?
= Mesure la qualité de la prédiction par un modèle de régression linaire
= proportion de la variance commune aux 2 variables
= Carré du coeff de corrélation de Pearson
-> Ne dit RIEN sur la CAUSALITÉ
-> r2 varie entre 0 et 1 (plus il est proche de 1 plus la prédiction est parfaite)
-> Utilisé lorsqu’on fait des modèles prédictifs (validation du modèle quand r2 > 0,90 ou 0,80)
En statistiques, qu’est-ce qu’un résidu (modèle de régression linéaire)?
Différence entre la valeur observée (yi) et la valeur prédite par le modèle (a + bxi):
= (Yi – (a+bXi))
=> Erreur de prédiction