Chapitre 6 : La corrélation Flashcards

1
Q

Qu’est-ce que la corrélation?

A

Sur le plan inférentiel, il s’agit de savoir si le lien ou l’association entre la distribution de deux variables existe (H1) ou s’il n’existe pas (H0, variation aléatoire)
En d’autres mots, vérifier s’il existe une relation entre deux variables (pour corrélation bivariée)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Donnez quelques caractéristiques de la corrélation

A
  • Ne se calcule qu’à partir de 2 variables, qui ici sont identifiées par x et y
  • Exige que chaque observation produise une valeur sur x et une sur y (impo à calculer s’il manque une valeur)
  • Il existe plusieurs types de corrélation mais la plus fréquente est Pearson
  • *Doit respecter règles de courbe normale et d’équations para
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quel est le principal avantage de la corrélation?

A

Elle réduit l’incertitude : la connaissance de x nous fournit de l’information sur y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qu’est-ce que l’interprétation d’une corrélation peut nous indiquer?

A
  • La taille, qui nous permet de savoir si la relation est forte ou faible
  • La direction de la relation (positive ou négative)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Sur quoi nous renseigne la taille corrélation?

A
  • Une corrélation peut être forte, modérée ou faible

- Plus une corrélation est forte, plus la connaissance de x nous renseigne y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Que nous indique la direction d’une corrélation?

A
  • Une corrélation négative ne signifie pas qu’elle est faible
  • Positive : nous indique que les variables évoluent dans la même direction
  • Négative : nous indique que les variables évoluent dans des directions opposées
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qu’est-ce qu’implique une corrélation entre deux variables?

A

L’observation d’une corrélation implique que les unités d’analyse tendent à produire des valeurs “similaires” (relation +) ou des valeurs inversées (relation -) sur deux variables.
Un fort coefficient signifie que soit les valeurs sont similaires (même unité de mesure) ou bien les valeurs étalon des deux variables sont similaires pour chaque observations (pas même unité)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Que signifie une distribution standardisée?

A

Cela signifie qu’une corrélation de même taille veut dire exactement la même chose peu importe les variables. Les corrélations peuvent être comparées entre elles.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quelle est la définition officielle du coefficient de Pearson?

A

Le coefficient est le degré moyen standardisé avec lequel les observations occupent une position similaire (ou inversée) sur x et y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Que signifie le terme corrélation “parfaite”?

A

La corrélation est parfaite lorsque toutes les observations sont à la même position (z) sur x et y (valeur numérique de la corrélation = 1)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Que signifie un coefficient < 1 ?

A

Cela signifie qu’il y a au moins une observation qui n’est pas à la même position (z) sur x et y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Que signifie un coefficient proche 0?

A

La corrélation est “faible” lorsque les observations ne sont pas situées (z) de manière similaire sur x et y (valeur numérique près de 0)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quelles sont les limites du calcul du coefficient de Pearson?

A
  • Ne peut être calculé que pour 2 variables à la fois
  • Exige que nous ayons pour chaque observation (x et y) 2 valeur (calcul impo pour l’observation s’il manque une valeur)
  • Nous indique la relation entre variables mais non entre observations
  • Doit avoir min 3 observations
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quels sont les postulats pour la corrélation de Pearson (conditions pour réaliser l’analyse)?

A
  • x et y sont des mesures à intervalles/de rapport (doit faire moyenne)
  • Raisonnable de croire que les concepts x et y sont distribués normalement
    • La relation xy est linéaire
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Qu’est-ce qui influence la taille des coefficients?

A
  • Le degré de relation entre x et y qui existe en réalité
  • La linéarité de la relation x et y
  • Le niveau de variance de x et de y (homogénéité des variances ou variances homogènes vs variance restreinte)
  • Les observations situées loin de la moyenne de x ou y (valeurs extrêmes)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Pourquoi est-ce que la relation entre x et y doit-elle être linéaire?

A

Rxy indique le degré de relation linéaire entre x et y
Si la relation Rxy n’est pas linéaire, on peut toujours calculer le coefficient de Pearson mais il sous estimera le degré de relation qui existe véritablement entre les variables.

17
Q

Qu’est-ce qu’une relation linéaire? (ou non-linéaire)

A

La relation Rxy est constante pour chaque valeur de x (vs elle n’est pas constante)

18
Q

Pourquoi est-ce que Rxy est sous-estimé pour une relation non-linéaire?

A

Car pour une partie de la courbe, Zx et Zy sont +, ce qui donne un Rxy +. Pour une autre partie de la courbe, Zx et Zy sont -, ce qui donne un Rxy -. Au final, Rxy+ et Rxy- s’annuleront (du moins en partie) ce qui sous-estime la valeur réelle de Rxy.

19
Q

Que se passe-t-il si x ou y n’a pas de variance?

A

Le score-z de chaque observation de la variable sera égal à 0, et donc inévitablement, Rxy sera égal 0
Lorsque la variance est restreinte, il est peu probable d’obtenir une corrélation même si elle existe

20
Q

Quelles valeurs ont le plus d’impact sur les corrélations?

A

Les observations situées loin de la moyenne ont plus d’impact sur la corrélation que celles situées proches de la moyenne. Celles qui sont anormalement loin sont qualifiées de valeurs extrêmes, elles biaisent les statistiques qui utilisent la moyenne.

21
Q

Quelles sont les conditions pour qu’il y ait causalité?

A
  • x et y doivent avoir de la variance
  • il doit y avoir une corrélation entre x et y
  • la cause doit précéder l’effet
  • il doit exister un délai entre la cause et l’effet
  • en résumé : la présence de Rxy n’indique pas nécessairement la présence de causalité mais l’absence de Rxy = 1 indique l’absence de causalité
22
Q

Quels sont les barèmes pour déterminer la taille de Rxy?

A
  • Rxy = ± 0,1 = faible
  • Rxy = ± 0,3 = modérée.
  • Rxy = ± 0,5+ = forte
23
Q

Comment sait-on si une corrélation est significative?

A

Le seuil de signification (p) doit être inférieur à 0,05 pour qu’un corrélation soit significative

24
Q

Qu’est-ce que le coefficient de détermination (et non-détermination)?

A
  • Le coefficient le détermination indique jusqu’à quel point une corrélation viendra réduire notre incertitude quant à la relation entre x et y (lorsque Rxy = 1, % = 100% et lorsque Rxy = 0, % = 0%)
  • Le coefficient de non-détermination nous indique le degré avec lequel l’incertitude n’est pas réduite
25
Q

Comment calcule-t-on le coefficient de détermination et de non-détermination?

A

% det = (1 - Rxy^2)*100

% non-det = 100 - % det