Cours 8 : Relations entre variables numériques = corrélation Flashcards

You may prefer our related Brainscape-certified flashcards:
1
Q

Quelles sont les deux types d’hypothèses étudiées en statistique inférentielle?

A
  1. D’une part, on s’intéresse à savoir s’il y a une différence entre des groupes de données;
  2. D’autre part, on désire étudier s’il y a une relation entre deux ou plusieurs variables.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et qu’on applique aux proportions d’échantillons factoriels »

A

Le test d’ajustement du χ2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et pour comparer les moyennes d’échantillons numériques »

A

Le t-test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et pour comparer la distribution d’un échantillon numérique à une loi de distribution Normale »

A

Le test de shapiro-wilk

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et pour comparer les moyennes de deux échantillons numériques qui ne respectent pas les conditions d’application d’un t-test »

A

Le test des rangs signés de Wilcoxon

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et à un facteur pour comparer les moyennes de > 2 échantillons numériques »

A

Le test d’ANOVA

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qu’est-ce qu’une série statistique double?

A

Il s’agit de l’analyse simultanée de deux variables numériques mesurées sur les mêmes éléments.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quelle condition doit-on respecter pour avoir une série statistique?

A

il faut qu’au moins une des deux variables soit aléatoire (2 variables aléatoires est aussi possible)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Qui-suis-je? « représente la moyenne des carrés des écarts de chaque élément de l’échantillon par rapport à la moyenne du groupe. »

A

Variance

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Qui-suis-je? « Elle permet de quantifier la force et la direction (positive ou négative) de l’association entre deux variables numériques. »

A

Co-variance

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quelle est la différence principale entre la variance et la co-variance?

A

Dans la co-variance, qu’on fait la somme du produit des écarts de chacune des variables de la série double (X et Y) à sa propre moyenne (X¯et Y¯), au lieu de prendre le carré des écarts d’une seule variable.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quels sont les autres particularités de la covariance?

A
  • La covariance est commutative
  • X¯ et Y¯ représentent les moyennes des deux échantillons de même taille qui recensent les mesures de la série double;
  • La covariance sera élevée et positive si les déviations des valeurs à la moyenne en X et en Y varient ensemble;
  • À l’inverse, la covariance sera élevée et négative si les déviations des valeurs à la moyenne en X et en Y varient de façon opposée;
  • La covariance sera nulle si X et Y varient de façon indépendante l’une de l’autre.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Qui-suis-je? « standardisation de la covariance par les écarts-types des échantillons, SX et SY »

A

coefficient de corrélation de Pearson rxy

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Dans quel intervalle le coefficient de Pearson varie-t-il?

A

-1 < 0 < 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Qu’implique un coefficient de Pearson de -1?
de 0 ?
de 1 ?

A

a) lorsque X et Y varient dans des proportions exactement opposées, c’est-à-dire que la corrélation est parfaite et négative entre les deux variables;
b) lorsque X et Y sont parfaitement indépendants, c’est-à-dire qu’il n’y a aucune corrélation entre les deux variables;
c) lorsque X et Y varient exactement dans les mêmes proportions (varient ensemble), c’est-à-dire que la corrélation est parfaite et positive entre les deux variables.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Vrai ou faux? Le coefficient de corrélation est une mesure de dépendance linéaire

A

Vrai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Vrai ou faux? rxy quantifie à quel point X et Y varient ensemble linéairement mais aussi de combien varie Y selon X

A

Faux, ça prend la régression linéaire pour savoir de combien Y varie selon X

18
Q

Quelles sont les possibles hypothèses statistiques pour le test de corrélation de Pearson?

A

H0: il n’y a pas de lien/pas de relation entre les variables ⟹ρ=0

H1 : il y a un lien/une relation entre les variables ⟹ρ≠0
pour un test bilatéral;

ou

H1 : les variables varient ensemble (de façon opposée) ⟹ρ>0 (ρ<0) pour un test unilatéral, possible puisque −1≤ρ≤1
.

19
Q

Vrai ou faux? La statistique de test nous permettant de calculer la p-value du coefficient de corrélation de Pearson est une valeur de t

A

Vrai

20
Q

Quel est le degré de liberté pour le coefficient de correlation de Pearson?

A

dl = n − 2

21
Q

Quelles sont les conditions (4) d’application à respecter pour pouvoir calculer le coefficient de corrélation de Pearson et effectuer un test de significativité?

A
  1. L’échantillonnage de la série de données double est indépendant et aléatoire;
  2. Les mesures de X et Y suivent une distribution Normale bivariée :
  3. Les valeurs de X et Y sont chacune distribuées normalement
  4. la relation entre X et Y est linéaire
22
Q

Vrai ou faux? « Ces conditions d’application à respecter pour pouvoir calculer le coefficient de corrélation de Pearson et effectuer un test de significativité sont très sensibles à la présence de valeurs extrêmes (outliers)

A

vrai

23
Q

Dans le cas où, après un test de Shapiro-Wilk, on constate que X et Y ne sont pas distribués normalement, quelles sont les options (2) qui s’offrent à nous?

A
  1. Si on décide d’appliquer une transformation, il est dans ce cas tout à fait possible de n’en transformer qu’une seule des deux.
  2. Sinon il existe une statistique et un test équivalents non-paramétriques : le coefficient de corrélation de Spearman.
24
Q

Il est vrai de dire que le coefficient de Spearman est beaucoup moins sensible aux valeurs extrêmes.

A

oui true

25
Q

Quelle est la seule différence entre le coefficient de Pearson et celui de Spearman?

A

Le coefficient de Spearman se calcule comme le coefficient de Pearson, mais sur les rangs des valeurs :

26
Q

Quelles sont les hypothèses statistiques possibles pour le test du coefficient de Spearman?

A

H0 : il n’y a pas de lien/pas de relation entre les variables (ρS = 0)

H1 : il y a un lien/une relation entre les variables (ρS≠0) pour un test bilatéral;
ou
H1 : les variables varient ensemble (de façon opposée) [ρS>0 (ρS<0)] pour un test unilatéral, possible puisque −1≤ρS≤1
.

27
Q

Quelle est la statistique de test de Spearman à effectuer si n > 100 ?

A

on utilise la même procédure que celle utilisée pour le coefficient de Pearson et on calcule une statistique de t, mais avec la valeur de rS

28
Q

Quelle est la statistique de test de Spearman à effectuer si n < 100 ?

A

on doit comparer rS calculé à une valeur critique issue de la table de Spearman correspondant au nombre d’observations n

29
Q

Vrai ou faux : la conclusion d’un test de Spearman ne se fait jamais à l’aide d’un intervalle de confiance.

A

Vrai, La conclusion du test s’obtient donc en comparant notre statistique de test appropriée à la situation (soit rS si n<100, soit tcalculée si n>100) à une valeur critique correspondante, ou bien en utilisant la fonction cor.test(…, method = “spearman” ) dans R pour obtenir une p-value… mais pas d’intervalle de confiance !

30
Q

Qui-suis-je? « recense les valeurs des coefficients de corrélations (Pearson ou Spearman, peu importe !) entre chacune des variables mesurées conjointement lors d’un échantillonnage »

A

Matrice des corrélations

31
Q

Vrai ou faux : La matrice de corrélation est symétrique

A

Vrai, on analyse seulement sa partie supérieure ou inférieure, car elles sont égales.

32
Q

Vrai ou faux : La diagonale d’une matrice de corrélation représente le coefficient de corrélation d’une variable avec elle même, donc il sera de 1;

A

Vrai

33
Q

Dans quelle situation précise les matrices de corrélation sont-elles utilisées?

A

lors d’analyses de régression multiples pour lesquelles la colinéarité entre les diverses variables explicatives est un sérieux problème

34
Q

Vrai ou faux : une corrélation a un pouvoir explicatif ou prédictif sur la relation entre deux variables.

A

FAUX : ne corrélation n’a AUCUN pouvoir explicatif ou prédictif sur la relation entre deux variables.

35
Q

Vrai ou faux : une corrélation ne renseigne pas sur la causalité entre deux variables

A

vrai

36
Q

Quels sont les éléments (4) nécessaires pour démontrer une relation cause à effet (la causalité) entre 2 variables?

A

il faut pouvoir :

  1. Manipuler la cause (faire/répéter des expériences);
  2. Mesurer les effets;
  3. Contrôler les autres variables;
  4. Tester les probabilités que les résultats aient pu résulter simplement du hasard.
37
Q

Quand un test statistique nous indique une corrélation entre X et Y , il y a généralement 3 possibilités, quelles sont-elles?

A
  1. X cause Y
  2. Y cause X
  3. X et Y sont causées par un troisième facteur : Z, il s’agit de corrélation partielle.
38
Q

Qui-suis-je? « cas où deux variables semblent fortement liées, alors que cette liaison repose en fait sur l’intervention d’une troisième variable »

A

Corrélation partielle

39
Q

Que fait une analyse de corrélation partielle?

A

L’analyse de corrélation partielle corrige ce problème : elle mesure la liaison en annulant l’effet de la troisième variable, dite « variable de contrôle »

40
Q

Quelle est la notation du coefficient de corrélation partielle?

A

rAB,C

41
Q

Comment faire pour calculer rAB,C?

A

on doit calculer les coefficients de corrélation entre les différentes variables. Pour ce faire, on peut utiliser le coefficient de Pearson ou de Spearman, mais on ne doit pas « mélanger » les deux !