Cours corrélation Flashcards
A quoi servent les corrélations?
tester le lien (dépendance) entre des variables sur des échelles de mesure continue ou ordinale.
Ex : 1)Le lien entre la maltraitance durant l’enfance et la faible estime de soi
2) Le lien entre la sévérité d’une sentence et le nombre d’antécédents du contrevenant
Quels sont les postulats pour avoir le droit de faire des corrélations?
- Observations indépendantes = Une échelle d’anxiété et une échelle d’angoisse…Concept indépendant, sinon on mesure 2 fois la même chose. Perte de temps!
Le lien entre le nombre de vol commis au mois de juin, et le nombre de vol commis durant l’été - Mise en relation de deux variables quantitatives : Quantitative = Ordinale ou Continue.
Que doit-on avoir pour avoir le droit d’utiliser le R de Pearson (test paramétrique)?
Distributions normales
Absence de valeur extrêmes
Covariation linéaire : lien entre les deux variables s’explique par une droite (nuage de points
Comment vérifier les postulats précédemment cités pour les corrélations?
Observations indépendantes? La logique
Variables continues ou ordinales? Une fréquence
Normalité de la distribution? Histogramme
Linéarité de la relation et valeurs extrêmes?
Le nuage de points.
Meilleure invention, après le pain tranché…
Que dit-on des valeurs extrêmes ?
Et comment doit-on agir face à elles?
Les valeurs extrêmes peuvent influencer les résultats : Puisque le r de pearson se calcul en additionnant les écart à la moyenne, si un participant est TRÈS à l’écart à la moyenne, il vient biaiser (de manière négative) la droite des moindres carrés.
Cependant, on doit aussi les voir comme une information nouvelle et pertinente…
Qui sont vos valeurs extrêmes, comment constituent-ils l’exception à la règle dans votre modèle? (Individu ou petit sous-groupe très performant, ou erreur de codification?)
Le chercheur doit prendre une décision (justifiée) par rapport à ses valeurs extrêmes : les enlever ou les conserver
Comment on quantifie le lien entre 2 variables?
En calculant la distance entre chacun des points et une droite hypothétique
Plus les points sont rapprochés de la droite hypothétique, plus la relation est forte et le R élevé
Plus les points sont éloignés de la droite hypothétique, plus la relation est faible et le R bas
Comment on calcul el score Z et à quoi il sert?
Score Z = (Score – Moyenne) / Écart-type
Le calcul du score Z = mettre en relation 2 variables qui n’ont pas nécessairement la même unité de mesure. Annule alors l’effet de l’unité de mesure..
Le score Z = représentation du score d’un participant, selon la moyenne de son groupe et l’écart-type.
Donc le Z modifie les scores, mais ne change en rien la position des participants
Entre quoi et quoi varie le R de pearson?
Qu’indique le signe?
Il varie entre -1 et 1
Le signe indique le sens de la relation
Un signe + indique une relation proportionnelle (positive)
Un signe – indique une relation inversement proportionnelle (négative)
Un R près de zéro = Absence de lien
Qu’est-ce qui explique une corrélation significative (4)
Hypothèse 1 (lien claire) : temps passé à étudier explique bien le résultat obtenu à l’examen
Hypothèse 2 (lien flou) : L’âge influence le risque de récidive (mécanismes sous-jacents moins clairs – âge = proxy de l’impulsivité, de l’expérience, de la force physique, …)
Hypothèse 3 (lien indirecte) : Les placements en centre jeunesse ainsi que le volume de crimes commis sont fonction d’une troisième variable, par exemple, d’une atteinte neurologique
Hypothèse 4 : Les deux phénomènes ne sont pas liés dans la population, et l’observation d’une corrélation est simplement le fait du hasard (faux positif)
Comment on interprète le R de Pearson?
On ne peut affirmer hors de tout doute laquelle des trois premières hypothèses est vraie: on doit faire des analyses additionnelles pour mieux comprendre ces résultats. Par exemple, un modèle multivarié contenant les variables contrôles ou effets d’interaction appropriés permettra de démêler une causalité indirecte.
Le chercheur est fréquemment tenté de conclure que c’est la première hypothèse qui est confirmée par l’observation d’une corrélation positive et forte entre nos deux concepts. Cependant, corrélation ne veut pas dire causalité. L’interprétation des statistiques demande de la prudence…
Le coef de force d’une corrélation : R carré, qu’est-ce que c’est
R2 varie entre 0 et 1.
R2 = proportion de variance expliquée par la variable indépendante, ou la proportion de variance commune entre les deux variables.
Si on observe une corrélation significative de 0,75 entre les placements et les lambdas de crimes, cela nous indique que 56,3% de la variance de ces deux variables est commune. En d’autres termes, connaître le nombre de placement nous permet de connaître 56,3% de la variance du Lambda.
Il n’en demeure pas moins que 43,7% de la variance demeure inexpliquée…
Quand doit-on utiliser le Rho de Spearman?
Si :
- Distributions non normales
- Présence de valeurs extrêmes
- Covariation non linéaire
A quoi sert le Rho de Spearman?
Le coefficient de corrélation de rang (appelé coefficient de Spearman) examine s’il existe une relation entre le rang des observations pour deux caractères X et Y, ce qui permet de détecter l’existence de relations (croissante ou décroissante), quelle que soit leur forme précise (linéaire, exponentielle).
Ça classe tous les participants en rang, puisque chaque individu est trop loin de la ligne.
Il varie aussi entre -1 et 1
Détecter la tautologie et la multicolinéarité
Lorsque le r > 0,80, on est en présence de deux concepts quasi-identiques
Dans les modèles de régression, il ne doit pas y avoir de redondance entre ses VI
C’est d’ailleurs pour ça que l’on crée des échelles, qui réduisent plein de variables mesurant la même chose en une seule mesure de dimension/concept