Cours 7 - r de Pearson et p de Spearman Flashcards

1
Q

Si j’écris que la r(X, Y) = - 0.8, est-ce que cela veut dire que: (1) la variable X augmente lorsque Y diminue ou (2) la variable X diminue lorsque Y augmente. Est-ce que cela change si j’écris r(Y, X) = -0.8 ?

A

Cela veut dire que X diminue lorsque Y augmente. Dans le deuxième exemple, oui cela change, cela voudrait dire que Y diminue lorsque X augmente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Dans le cadre de votre cours, les données à l’étude sont la déviance des parents, la faible performance académique, l’école fréquentée et la délinquance. À première vue, vous dites que vous allez effectuer un test de corrélation (R de Pearson) entre la faible performance académique (mesurée par la moyenne des notes obtenues à l’école) et la délinquance (mesurée par le nombre de crime commis) pour prouver à votre ami que ce sont les jeunes “moins intelligents” qui finissent par commettre des crimes. Le résultat du test de corrélation (disons un r = 0.7) indique qu’il a une relation forte et significative entre la faible performance académique et la délinquance. Vous interprétez donc qu’il existe en soi une relation directe ou inverse de cause à effet entre ces deux variables. Quelle autre explication peut expliquer cette relation forte ? (Tenez compte de la mise en situation au paragraphe 1)

A

En fait, la relation peut être causée par une troisième variable ou même qu’il existe une relation complexe entre plusieurs variables. De plus, la corrélation peut être le fruit du hasard.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Les étudiants de 2e année du baccalauréat en criminologie option analyse doivent réaliser un travail final en méthodes quantitatives et un autre en méthodes qualitatives. Nous voulons voir si les résultats obtenus aux travaux finaux des deux cours corrèlent ensemble. Nous observons 30 résultats par cours. Nous notons 2 éléments importants: (1) 6 étudiants ont obtenu un résultat de 81% et 2) les résultats suivent une relation monotone. Quel test décidons-nous d’effectuer pour vérifier s’il y a une corrélation? Quelle est la limite de ce test considérant la situation? Explique pourquoi.

A

Le p de Spearman. Il permet d’évaluer la relation monotone entre deux variable. Elle permet de classer les données en catégories et de les mettre en relation. Donc elle se base sur la différence des rangs entre les variables plutôt que les données brutes. Cependant, elle peut être imprécise étant donné que plusieurs élèves ont obtenus la même note

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Dans le cadre d’une étude sur la cybersécurité dans des compagnies montréalaises, je cherche à vérifier s’il existe une corrélation entre l’âge des employés et le nombre de failles de sécurité détectées par année. Je visualise mes données à l’aide d’un nuage de points et constate que j’ai une relation linéaire entre mes variables, mais aussi plusieurs variables aberrantes. Je veux poursuivre mon analyse en calculant le r de Pearson, mais je commence à hésiter, car je sais que les valeurs aberrantes peuvent influencer le résultat. Je consulte alors mon collègue qui me dit que je devrais plutôt juste calculer le rho de Spearman, car il est très robuste aux valeurs aberrantes. Est-ce que mon collègue a raison? Que devrais-je faire pour que mon étude soit le plus robuste possible?

A

Oui, le Rho de Spearman serait le plus approprié. Une valeur aberrante va affaiblir la corrélation. On peut la supprimer, mais il faut le mentionner dans notre méthodologie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Expliquez, dans vos mots, ce qu’est le paradoxe de Simpson.

A

Il est possible qu’il existe plusieurs phénomènes à l’intérieur de notre nuage de points. Que plusieurs groupes présentent des linéarité différentes à la linéarité de tous les groupes combinés.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Qu’est-ce qu’explique le r de Pearson au carré?

A

Il explique le pourcentage de la variance de la valeur X, ce qui explique par défaut le pourcentage de la variance de la valeur Y. Par exemple, 9.61% de la variance de X explique la variance de Y.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Mon collègue me parle d’une étude qu’il est en train d’effectuer sur le lien entre la grandeur et le nombre de meurtres qu’un tueur a commis. Il a trouvé une corrélation de 0.60. Il me dit alors qu’avec un résultat aussi bon on peut affirmer sans aucun doute que plus les tueurs sont grands plus ils ont commis de meurtres et donc que la taille cause le fait de commettre plus de crimes. Est-ce qu’il a tort? Est-ce qu’on peut vraiment parler de causalité lorsqu’on discute d’une corrélation? Sinon, expliquez pourquoi.

A

Il a tort, une corrélation n’est pas une cause. Il se peut que la relation soit causée par une troisième variable ou un mélange complexe de plusieurs variable. Mais dans ce cas précis, il est probable que la relation soit due au fruit du hasard.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quel type de relation est évalué par le Rho de Spearman ? Précisez ce que capture ce type de relation.

A

Il évalue la relation monotone entre deux variable. Lorsque la valeur d’une variable augmente, l’autre augmente également ou lorsque la valeur augmente, l’autre diminue.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Sur quelle mesure se base le calcul du Rho de Spearman ? Qu’est-ce que cela signifie par rapport au r de Pearson ? Précisez.

A

Il se base sur la différence des rangs entre les variables plutôt que les données brutes, ce qui veut dire qu’elle est beaucoup plus robuste aux valeurs extrêmes contrairement au R de Pearson.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Nommez 2 forces du Rho de Spearman.

A

a. Robuste aux variables aberrantes
b. Très utile pour les variables ordinales

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Le Quatuor d’Anscombe nous parle de l’importance d’investiguer le nuage de points représentatif de notre corrélation avant de procéder à l’analyse du r de Pearson. Quelles raisons spécifiquement liées aux données aberrantes expliquent cette nécessité?

A

Les valeurs aberrantes peuvent affaiblir ou augmenter le coefficient de corrélation.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Coefficient de détermination : Qu’est-ce que cela signifie si R2 ≈ 1 ? Qu’est-ce que cela signifie si R2 ≈ 0 ?

A

a. Dans le premier cas, cela signifie que 100% de la variance de X explique la variance de Y.
b. Dans le deuxième cas, cela signifie que 0% de la variance de X explique la variance de Y.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly