COURS 5 Flashcards

1
Q

Donne des exemples de corrélation dans la vie de tous les jours.

A

▫ Plus la température est basse (froide), plus les gens portent de couches
de vêtements (association /corrélation négative).
▫ Plus l’on s’éloigne de l’heure de pointe de circulation, moins nombreux sont les autobus (association/corrélation négative).
▫ Plus l’âge d’un individu avance, plus il est susceptible de répondre
positivement à un questionnaire de satisfaction (association/corrélation
positive)

▫ Plus la satisfaction avec le salaire (x) est élevée, plus grand
grands est le désir de conserver son emploi (y).
▫ Plus une personne a accumulé d’années d’ancienneté (x), plus
elle aura de journées de vacances (y).
▫ Un climat de travail positif (x) est associé à une réduction des
comportements d’harcèlement (y)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

les associations proviennent de quel concept?

A

les corrélations.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

exemple d’étude/corrélation en psychologie

A
  • La relation entre la vie familiale et le bien être psychologique.
  • La relation entre la vie au travail et la vie hors travail.
  • La relation entre le soutien social et la dépression.
  • La relation entre la consommation de substance et certains troubles
    neuropsychologiques.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quelles sont les origines de la corrélation?

A

▫ Le concept de corrélation a été mis de l’avant
par Sir Francis Galton, dans les années 1800.
- Statisticien, sociologue, anthropologue,
psychologue, psychométricien, etc…

▫ Karl Pearson a raffiné le concept et sa
mathématique.
- Mathématicien (mathématique statistique).
- Corrélation simple, bivariée, ordre zéro ou
linéaire (synonymes).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quelles sont les caractéristiques de la corrélation?

A

▫ La corrélation ne se calcule qu’à partir de deux variables, qui sont par
convention ici identifiées par x et y.
▫ Elle exige que chaque observation produit une valeur sur x et une
valeur sur y (impossible de la calculer si l’une des deux valeurs est
manquante).
▫ Il existe plusieurs types de corrélations (modèles / formules).
▫ La plus fréquente, la corrélation de Pearson, s’identifie par le symbole
« r » et se note rxy (la corrélation entre x et y)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

pourquoi les corrélations sont importantes?

A

Elle réduit l’incertitude : la connaissance de x nous fournit de l’information sur y.

Comment s’habiller ?
▫ En observant que les passants portent un manteau (x), nous sommes « plus » enclin a croire qu’il fait
froid (y)!
Le transport en commun
▫ Si j’attends l’autobus a 17:00 (x) plutôt qu’a minuit, il est probable que mon temps d’attente (y) sera
plus court.
Au travail
▫ Si j’observe des pratiques de reconnaissance de la part de mes collègues (x) ou de mes supérieurs (un
autre x), plus j’ai de chances d’être satisfait dans cet emploi (y).
▫ Connaissant x il est possible d’estimer y (et vice-versa)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quelles sont les deux caractéristiques indépendantes de la corrélation?

A

1)Taille = la corrélation forte, modérée, faible, etc.
2) Direction = positive ou négative

Plus élevée est la corrélation (taille), plus la connaissance de x nous
renseigne sur y.
▫ Une corrélation négative ne veut pas dire que la corrélation est faible.
▫ Une corrélation négative est aussi intéressante qu’une corrélation
positive

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

comment la corrélation peut varier (deux caractéristiques)

A

1) Taille: les valeurs de rxy s’étalent entre très faibles et fortes
- Plus « forte » est la rxy, plus grande la réduction de l’incertitude de y
à partir de la connaissance de x et vice-versa.
2) Direction: rxy peut être positive ou négative.
- rxy « positive » : des valeurs élevées sur x sont associées à des
valeurs élevées sur y et vice-versa.
- rxy « négative » : des valeurs élevées sur x sont associées à des
valeurs faibles sur y et vice-versa

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

est-ce que la corrélation est une similarité entre deux variables

A

L’observation d’une rxy implique que les
unités d’analyse tendent a produire des valeurs « similaires » (relation +) ou des valeurs inversées (relation-) sur deux
variables.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

définition de valeur similaire?

A

lorsque les valeurs de x sont identiques aux valeurs de y.
Rxy est élevé (similitude élevée) car la position des observations
demeure identique sur x et sur y.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Définition de valeurs inverses?

A

lorsque les valeurs de x et y sont inversés.
Ex:
observation A x=5 y=1
observation E x=1 y=5

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

définition de Rxy

A

rxy = le degré moyen avec lequel les
observations occupent une position
similaire (ou inversée) sur x et y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

définition de position similaire?

A

Position similaire = position des observations par rapport aux
Moy des variables.
▫ rxy + (similaire) : les observations situées au-dessus de Moy(x) sont
aussi situées au-dessus de Moy(y) et vice-versa.
▫ rxy – (similaire, mais inversée) : les observations situées au
dessus de Moyx sont situées en dessous de Moy(y) et vice-versa.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Comment calculer la position?

A

Pour calculer rxy il faut établir, pour chaque observation, sa position sur x et sur y.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quelle est la formule de Rxy

A

r= sigma (zx * zy)/n-1

zx = position de x

(zx * zy) = la similarité entre x et y de chaque observation

Convertir chaque observation en score-z (ou le faire à l’aide de R ou SPSS.
▫ Calculer le produit zx * zy pour chaque observation.
▫ Calculer la somme de ces produits S(zx * zy).
▫ Calculer la moyenne (en divisant par n - 1)
-La corrélation de Pearson est donc le degré moyen de similarité entre la
position (z) des observations

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

définition de corrélation?

A

indice standardisé de la relation entre x et y.

  • La position sur x et y est établie avec des scorez-z.
  • Une distribution en z est standardisée.

Le degré moyen standardisé avec
lequel les observations occupent une
position similaire (ou inversée) sur x et y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Pourquoi faut-il standardisé nos variables dans une corrélation?

A

Rappelez-vous. Il faut standardiser pour que nos variables, sur des
échelles différentes puisse « se parler » et donc être comparées (ex.:
comparer la performance à un examen de mathématiques sur 100
VS un examen de langue elfique sur 20).

Une corrélation de même taille veut dire exactement la même
chose peu importe les variables. Les corrélations peuvent être
comparées entre elles

18
Q

qu’est-ce qu’une corrélation parfaite?

A

rxy =1,0.
La corrélation est parfaite lorsque toutes les observations sont a la
même position (z) sur x et y (valeur numérique de la corrélation = 1,0).

19
Q

Qu’est-ce qu’une corrélation pas parfaite?

A

La corrélation n’est pas parfaite lorsque au moins une observation
n’est pas a la même position (z) sur x et y (valeur numérique plus
petite que 1,0).

20
Q

Qu’est-ce qu’une corrélation faible?

A

La corrélation est « faible » lorsque les observations ne sont pas situées (z) de manière similaire sur x et y (valeur numérique près
de 0).

21
Q

comment connaitre la direction de la relation Rxy?

A

-Lorsque les valeurs zx et zy des observations sont du même
signe (+, -) le produit (zx * zy) et rxy sont positifs.
-Lorsque les valeurs zx et zy détiennent des signes opposés le produit (zx * zy) et rxy sont négatifs.
-Lorsque le signe des valeurs zx et zy est aléatoirement le
même ou différent, le produit (zx * zy) est parfois positif, parfois négatif. La sommation S(zx * zy) causera une annulation du produit… rxy s’approchera de zéro.

22
Q

Quelles sont les valeurs limites de la corrélation?

A

Valeurs limites : -1 à +1 en passant par 0.
+1,0 : maximum supérieur possible ; la position des
observations sur X et Y est identique.
-1,0 : maximum inférieur possible ; la position des
observations sur X et Y est inversée.
0,0 : corrélation nulle ; la position des observations sur x et y est aléatoire

23
Q

Quelles sont les limites du calcul de la corrélation (r)?

A

▫ Ne peut être calculé que pour deux variables à la fois (on peut produire une matrice, mais les corrélations sont calculées par paires de variables).
▫ Exige que nous ayons pour chaque observation (x et y) deux valeurs : une
sur x, l’autre sur y (impossible de calculer pour cette observation s’il y a une des deux valeurs manquantes).
▫ La corrélation nous indique la relation entre les variables et non la
relation entre les observations.
▫ Il faut un minimum de trois observations pour la calculer. Mais comme pour l’ensemble des statistiques paramétriques, un n
d’au moins 30 est souhaitable.

24
Q

Quels sont les 4 postulats (assummptions) (influence la taille des r)

A
  1. Le degré de relation entre x et y qui existe en réalité (est-ce pertinent ?).
  2. La « linéarité » de la relation x et y.
  3. Le niveau de variance de x et de y (homogénéité des variances ou variances
    homogènes VS variance restreinte).
  4. Les observations situées loin de Moyx et/ou Moy(y) (valeurs extrêmes ou « outliers »): normalité.
25
Q

Pourquoi la pertinence d’une relation est importante?

A

sinon le relation sera de zéro car le lien entre les variables est inexistant.
▫ Exemple de corrélations faibles (proche de zéro).
- Les notes aux examens et la longueur du pouce !
- La consommation de marijuana et la consommation de
crack.

26
Q

pourquoi la linéarité est importante pour calculer le R?

A

▫ Le coefficient de corrélation de Pearson indique le degré de relation
linéaire entre x et y.
▫ Si la relation rxy n’est pas linéaire, on peut toujours calculer le coefficient de Pearson mais il sous estimera le degré de relation qui existe véritablement entre les variables.
▫ Avant d’utiliser la corrélation, il faut donc se questionner si nos deux variables ont théoriquement (et réellement) une relation linéaire ou non.

27
Q

définition de relation linéaire?

A

▫ La relation rxy est constante pour chaque valeur de x (Haccoun et Cousineau, 2010).

28
Q

comment se nomme une relation non-linéaire?

A

Curvilinéaire

29
Q

Comment un relation curvilinéaire affecte son calcul de R?

A

La relation rxy n’est pas la même pour chaque
valeur de x
▫ Le rxy de Pearson ne mesure que les relations
linéaires. Si la relation est non linéaire le rxy de
Pearson sous estimera la relation.

ex: si l’augmentation se calme et approche d’un plateau, cette caractéristique de la courbe sera oublié dans le calcul, et la corrélation aura juste l’air plus faible (sur papier)

▫ La corrélation de Pearson estimera correctement la relation xy si elle est linéaire. Lorsque la relation est curvilinéaire, la corrélation de Pearson approchera zéro. Dans un tel cas, cela ne veut pas nécessairement dire qu’il n’y a pas de relation entre X et Y. Il pourrait en avoir une, mais elle serait non-linéaire .

30
Q

qu’arrive-t-il à la corrélation lorsque la variance est absente entre x et/ou y

A

la corrélation sera toujours de zéro.
rxy
=Sigma(zx*zy)/n -1
- Chaque observation x est situé à Moyx.
- Le score-z de chaque observation est zx = 0 .
- Toute valeur multiplié par 0 = 0

31
Q

quel est l’impact de la variance (s^2) sur la corrélation?

A

▫ x présente beaucoup de s2 (cigarettes): les observations aurait presque toutes une position différente sur x.
▫ y présente (peu ou) pas de s2 (nez): les observations auraient presque toutes la même position sur y.
▫ Par conséquent les observations fortes (ou faibles) sur x n’auraient pas une position similaire (relation linéaire) sur y.
▫ La similarité des position x et y étant faible, la corrélation s’approchera de
zéro

32
Q

quelles sont les deux causes de la restriction des variances?

A

▫ Deux causes principales de la restriction des variances.
- Les observations sont très homogènes.
- La variable est incapable de distinguer entre les observations

33
Q

Quel est l’impact des valeurs extrêmes sur la corrélation?

A

▫ Les observations situées loin de la moyenne ont plus d’impact sur la corrélation que celles situées proches de la moyenne. Celles qui sont anormalement loin sont qualifiées de valeurs extrêmes ou « outliers », elles biaisent les statistiques qui utilisent la moyenne. La corrélation est le produit des zxzy. Plus grands les zxzy, plus forte la corrélation

si on enleve les extrêmes, fait descendre la corrélation et si on les garde, ça fait augmenter la corrélation.

34
Q

Quels sont les conditions pour avoir la présence d’une causalité?

A

Pour qu’il y ait causalité :
▫ x et y doivent avoir de la variance.
▫ Il doit y avoir une corrélation entre x et y.
▫ La cause doit précéder l’effet.
▫ Il doit exister un délai entre la cause et l’effet. à

Donc logiquement :
▫ La présence de rxy = 1 n’indique pas nécessairement la présence de causalité.
▫ L’absence de rxy = 1 indique nécessairement l’absence de causalité

35
Q

Qu’est-ce que le seuil de signification? (p)

A

p nous informe sur la probabilité de commettre une erreur alpha

Dérivé à partir des intervalles de confiance reliés aux scores-z utilisé pour calculer la corrélation

36
Q

qu’est-ce qui est considéré comme une corrélation faible, modérée, forte.

A

▫ rxy = ± 0,10 = faible.
▫ rxy = ± 0,30 = modérée.
▫ rxy = ± 0,50+ = forte.

37
Q

définition du coefficient de détermination?

A

-Le coefficient de détermination nous indique le pourcentage de réduction de l’incertitude
-Le coefficient de détermination nous informe à propos de la
proportion de variance expliquée, commune à deux variables
Le coefficient de détermination indique jusqu’à quel point une
corrélation viendra réduire notre incertitude quant à la relation entre x et y.
- Lorsque la corrélation est nulle, la réduction de l’incertitude est de 0 %.
- Lorsque la corrélation est parfaite (+1 ou -1), la réduction de
l’incertitude est de 100 %.
- Lorsque la corrélation est différente de zéro (entre 0,01 et ±0,99), le degré de réduction de l’incertitude variera entre presque nulle et presque parfait.

38
Q

Comment calcule-t-on le coefficient de détermination?

A

Le coefficient de détermination = rxy².

En multipliant le coefficient de détermination par 100%, nous obtenons un pourcentage.
▫ Le pourcentage de réduction de l’incertitude

39
Q

Qu’est-ce que le coefficient de non-détermination?

A

▫ Le coefficient de non détermination = nous indique le degré avec lequel
l’incertitude n’est pas réduite (i.e. l’incertitude restante).
- Coefficient de détermination= rxy²
- Coefficient de non détermination = 1- rxy²
- Si rxy= 0,5, rxy² = 0,25 (25 %), 1 - rxy² = 0,75 (75%)
L’incertitude totale, en absence d’autres informations, est invariablement de 100 %

40
Q

Comment la variance est expliquée par Rxy et le coefficient de détermination?

A

Lorsque la variance commune est faible, il existe plusieurs autres
variables qui expliqueront (ou causeront) la variable y (et vice-versa).

Le coefficient de détermination nous informe à propos de la proportion de variance expliquée, commune à deux variables.