Cours 8 : Relations entre variables numériques = corrélation Flashcards
Quelles sont les deux types d’hypothèses étudiées en statistique inférentielle?
- D’une part, on s’intéresse à savoir s’il y a une différence entre des groupes de données;
- D’autre part, on désire étudier s’il y a une relation entre deux ou plusieurs variables.
Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et qu’on applique aux proportions d’échantillons factoriels »
Le test d’ajustement du χ2
Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et pour comparer les moyennes d’échantillons numériques »
Le t-test
Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et pour comparer la distribution d’un échantillon numérique à une loi de distribution Normale »
Le test de shapiro-wilk
Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et pour comparer les moyennes de deux échantillons numériques qui ne respectent pas les conditions d’application d’un t-test »
Le test des rangs signés de Wilcoxon
Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et à un facteur pour comparer les moyennes de > 2 échantillons numériques »
Le test d’ANOVA
Qu’est-ce qu’une série statistique double?
Il s’agit de l’analyse simultanée de deux variables numériques mesurées sur les mêmes éléments.
Quelle condition doit-on respecter pour avoir une série statistique?
il faut qu’au moins une des deux variables soit aléatoire (2 variables aléatoires est aussi possible)
Qui-suis-je? « représente la moyenne des carrés des écarts de chaque élément de l’échantillon par rapport à la moyenne du groupe. »
Variance
Qui-suis-je? « Elle permet de quantifier la force et la direction (positive ou négative) de l’association entre deux variables numériques. »
Co-variance
Quelle est la différence principale entre la variance et la co-variance?
Dans la co-variance, qu’on fait la somme du produit des écarts de chacune des variables de la série double (X et Y) à sa propre moyenne (X¯et Y¯), au lieu de prendre le carré des écarts d’une seule variable.
Quels sont les autres particularités de la covariance?
- La covariance est commutative
- X¯ et Y¯ représentent les moyennes des deux échantillons de même taille qui recensent les mesures de la série double;
- La covariance sera élevée et positive si les déviations des valeurs à la moyenne en X et en Y varient ensemble;
- À l’inverse, la covariance sera élevée et négative si les déviations des valeurs à la moyenne en X et en Y varient de façon opposée;
- La covariance sera nulle si X et Y varient de façon indépendante l’une de l’autre.
Qui-suis-je? « standardisation de la covariance par les écarts-types des échantillons, SX et SY »
coefficient de corrélation de Pearson rxy
Dans quel intervalle le coefficient de Pearson varie-t-il?
-1 < 0 < 1
Qu’implique un coefficient de Pearson de -1?
de 0 ?
de 1 ?
a) lorsque X et Y varient dans des proportions exactement opposées, c’est-à-dire que la corrélation est parfaite et négative entre les deux variables;
b) lorsque X et Y sont parfaitement indépendants, c’est-à-dire qu’il n’y a aucune corrélation entre les deux variables;
c) lorsque X et Y varient exactement dans les mêmes proportions (varient ensemble), c’est-à-dire que la corrélation est parfaite et positive entre les deux variables.
Vrai ou faux? Le coefficient de corrélation est une mesure de dépendance linéaire
Vrai
Vrai ou faux? rxy quantifie à quel point X et Y varient ensemble linéairement mais aussi de combien varie Y selon X
Faux, ça prend la régression linéaire pour savoir de combien Y varie selon X
Quelles sont les possibles hypothèses statistiques pour le test de corrélation de Pearson?
H0: il n’y a pas de lien/pas de relation entre les variables ⟹ρ=0
H1 : il y a un lien/une relation entre les variables ⟹ρ≠0
pour un test bilatéral;
ou
H1 : les variables varient ensemble (de façon opposée) ⟹ρ>0 (ρ<0) pour un test unilatéral, possible puisque −1≤ρ≤1
.
Vrai ou faux? La statistique de test nous permettant de calculer la p-value du coefficient de corrélation de Pearson est une valeur de t
Vrai
Quel est le degré de liberté pour le coefficient de correlation de Pearson?
dl = n − 2
Quelles sont les conditions (4) d’application à respecter pour pouvoir calculer le coefficient de corrélation de Pearson et effectuer un test de significativité?
- L’échantillonnage de la série de données double est indépendant et aléatoire;
- Les mesures de X et Y suivent une distribution Normale bivariée :
- Les valeurs de X et Y sont chacune distribuées normalement
- la relation entre X et Y est linéaire
Vrai ou faux? « Ces conditions d’application à respecter pour pouvoir calculer le coefficient de corrélation de Pearson et effectuer un test de significativité sont très sensibles à la présence de valeurs extrêmes (outliers)
vrai
Dans le cas où, après un test de Shapiro-Wilk, on constate que X et Y ne sont pas distribués normalement, quelles sont les options (2) qui s’offrent à nous?
- Si on décide d’appliquer une transformation, il est dans ce cas tout à fait possible de n’en transformer qu’une seule des deux.
- Sinon il existe une statistique et un test équivalents non-paramétriques : le coefficient de corrélation de Spearman.
Il est vrai de dire que le coefficient de Spearman est beaucoup moins sensible aux valeurs extrêmes.
oui true
Quelle est la seule différence entre le coefficient de Pearson et celui de Spearman?
Le coefficient de Spearman se calcule comme le coefficient de Pearson, mais sur les rangs des valeurs :
Quelles sont les hypothèses statistiques possibles pour le test du coefficient de Spearman?
H0 : il n’y a pas de lien/pas de relation entre les variables (ρS = 0)
H1 : il y a un lien/une relation entre les variables (ρS≠0) pour un test bilatéral;
ou
H1 : les variables varient ensemble (de façon opposée) [ρS>0 (ρS<0)] pour un test unilatéral, possible puisque −1≤ρS≤1
.
Quelle est la statistique de test de Spearman à effectuer si n > 100 ?
on utilise la même procédure que celle utilisée pour le coefficient de Pearson et on calcule une statistique de t, mais avec la valeur de rS
Quelle est la statistique de test de Spearman à effectuer si n < 100 ?
on doit comparer rS calculé à une valeur critique issue de la table de Spearman correspondant au nombre d’observations n
Vrai ou faux : la conclusion d’un test de Spearman ne se fait jamais à l’aide d’un intervalle de confiance.
Vrai, La conclusion du test s’obtient donc en comparant notre statistique de test appropriée à la situation (soit rS si n<100, soit tcalculée si n>100) à une valeur critique correspondante, ou bien en utilisant la fonction cor.test(…, method = “spearman” ) dans R pour obtenir une p-value… mais pas d’intervalle de confiance !
Qui-suis-je? « recense les valeurs des coefficients de corrélations (Pearson ou Spearman, peu importe !) entre chacune des variables mesurées conjointement lors d’un échantillonnage »
Matrice des corrélations
Vrai ou faux : La matrice de corrélation est symétrique
Vrai, on analyse seulement sa partie supérieure ou inférieure, car elles sont égales.
Vrai ou faux : La diagonale d’une matrice de corrélation représente le coefficient de corrélation d’une variable avec elle même, donc il sera de 1;
Vrai
Dans quelle situation précise les matrices de corrélation sont-elles utilisées?
lors d’analyses de régression multiples pour lesquelles la colinéarité entre les diverses variables explicatives est un sérieux problème
Vrai ou faux : une corrélation a un pouvoir explicatif ou prédictif sur la relation entre deux variables.
FAUX : ne corrélation n’a AUCUN pouvoir explicatif ou prédictif sur la relation entre deux variables.
Vrai ou faux : une corrélation ne renseigne pas sur la causalité entre deux variables
vrai
Quels sont les éléments (4) nécessaires pour démontrer une relation cause à effet (la causalité) entre 2 variables?
il faut pouvoir :
- Manipuler la cause (faire/répéter des expériences);
- Mesurer les effets;
- Contrôler les autres variables;
- Tester les probabilités que les résultats aient pu résulter simplement du hasard.
Quand un test statistique nous indique une corrélation entre X et Y , il y a généralement 3 possibilités, quelles sont-elles?
- X cause Y
- Y cause X
- X et Y sont causées par un troisième facteur : Z, il s’agit de corrélation partielle.
Qui-suis-je? « cas où deux variables semblent fortement liées, alors que cette liaison repose en fait sur l’intervention d’une troisième variable »
Corrélation partielle
Que fait une analyse de corrélation partielle?
L’analyse de corrélation partielle corrige ce problème : elle mesure la liaison en annulant l’effet de la troisième variable, dite « variable de contrôle »
Quelle est la notation du coefficient de corrélation partielle?
rAB,C
Comment faire pour calculer rAB,C?
on doit calculer les coefficients de corrélation entre les différentes variables. Pour ce faire, on peut utiliser le coefficient de Pearson ou de Spearman, mais on ne doit pas « mélanger » les deux !