cours 7 - corrélations bivariées (r de pearson, p de spearman) Flashcards
Qu’est-ce qui explique que les critères d’interprétation du coefficient de corrélation r de Pearson sont moins stricts en criminologie? (C’est-à-dire qu’une relation ayant un coefficient de 0.55 est considérée comme forte en criminologie et moyenne dans les autres domaines de sciences sociales).
Une relation forte entre deux variables est plus rare et difficile à démontrer en criminologie alors les coefficients de corrélation et leur interprétation ont été diminué pour la criminologie.
- Vrai ou Faux? Les valeurs aberrantes affaiblissent toujours la corrélation. Justifiez votre réponse.
Faux en général c’est vrai mais la valeur aberrante va augmenter le coefficient de corrélation pour le R de Pearson mais le p de Spearman est robuste aux valeurs aberrantes alors cela n’affaiblit pas la corrélation.
Vrai ou faux? Le r de Pearson est un coefficient de corrélation qui quantifie la relation entre deux variables linéaires sur une échelle de 0 à 1. Justifiez votre réponse.
Faux, il quantifie la relation linéaire entre deux variables continues et s’étend de -1 à 1. -1 = relation négative parfaite / 0 = pas de relation / 1 = relation positive parfaite
- Quel est le paradoxe de Simpson et comment peut-il affecter l’interprétation des données ?
Un phénomène statistique qui stipule qu’il est possible qu’un même phénomène ait lieu à l’intérieur de différents groupes mais que ce phénomène s’inverse lorsque les groupes sont rassemblés. Il crée des erreurs d’interprétation.
exemple de chatgpt : Supposons que, dans une population globale, il semble y avoir une corrélation négative entre les heures d’étude et la performance académique. Cependant, lorsque vous stratifiez les données par niveau de programme (par exemple, programme A et programme B), vous constatez que dans chaque programme, il y a une corrélation positive entre les heures d’étude et la performance académique. Le paradoxe de Simpson se produirait ici si, lorsqu’on combine les données de tous les programmes, la corrélation globale devient négative.
Lorsque l’on effectue un test de corrélation paramétrique (Pearson), on vient calculer un coefficient de corrélation (r) basé sur la covariance entre deux variables. Toutefois, lorsque l’on rapporte des résultats, on fait également référence à la variance expliquée (r^2). Explique-moi ce qu’est la covariance. Explique-moi la différence entre la covariance et la variance expliquée.
La covariance mesure la variabilité conjointe entre deux variables, tandis que la variance expliquée (r au carré) représente la proportion de la variance d’une variable expliquée par une autre variable dans un modèle de régression, normalisée par les variances respectives des deux variables.
La covariance n’est pas normalisée (dépend de de l’échelle des variables) mais la variance expliquée est normalisée.
la covariance représente la relation entre les variables
la variance expliquée représente le % de la variance de X qui explique la variance de Y
- Vrai ou au Faux? Lorsqu’on trouve une corrélation dans notre test de Pearson, cela veut toujours dire qu’il y a causation. Justifiez votre réponse.
Faux, une corrélation n’égale pas une causation. Une relation forte de corrélation trouvé avec le r de Pearson peut indiquer qu’il existe une causalité directe, une causalité inverse, une troisième variable qui peut influencer les deux variables (crée une corrélation entre les deux qu’il n’y a pas réellement) ou tout simplement une coïncidence)
- Comment l’analyse d’un nuage de points peut-elle fournir des indications sur la conformité aux postulats du coefficient de corrélation de Pearson et pourquoi est-il important de regarder un nuage de points avant de calculer une corrélation?
ipour faire le test de pearson il faut qu’il y aille une relation linéaire. l est important de vérifier le nuage de points afin de voir si les postulats sont respectés, le nuage de points peut identifier des valeurs aberramtes, vérifier l’homoscédasticité, les relations non linéaires, la linéarité, etc.
quatuor d’Anscombe exemple
- Quelle est la différence entre une relation linéaire et une relation monotone? Comment cette différence affecte le type de test à effectuer?
Dans une relation monotone, calculé avec le p de Spearman, l’augmentation et la diminution des valeurs des variables ne sont pas nécessairement à un taux constant alors que dans une relation linéaire, calculé avec le r de Pearson, le taux d’augmentation et de diminution est constant.
- Le Quatuor d’Anscombe est un ensemble formé de quatre séries de données différentes les unes des autres.
a. Quel est l’élément commun entre les quatre séries de données qui forment le Quatuor d’Anscombe ?
b. Cet élément commun du Quatuor d’Anscombe met de l’avant une des étapes cruciales du calcul d’une corrélation entre deux variables. Quelle est cette étape cruciale ?
a: ils possèdent la même valeur de R et de p (tous significatifs)
b: Il met en évidence l’importance de regarder un nuage de points AVANT d’effectuer un calcul de corrélation (les 4 nuages sont complètement différents)
Citez 2 différences entre les deux analyses suivantes : r de Pearson et ρ de Spearman.
Le r de Pearson est utilisé pour les tests paramétriques et le p de Spearman est pour les test non-paramétriques
le p de Spearman est robuste aux valeurs aberrantes puisqu’il est basé sur le rang des observations mais le r de Pearson ne l’est pas (une valeur aberrante va affaiblir la corrélation ou l’augmenter selon sa valeur).