Cours 8 : Relations entre variables numériques = corrélation Flashcards
Quelles sont les deux types d’hypothèses étudiées en statistique inférentielle?
- D’une part, on s’intéresse à savoir s’il y a une différence entre des groupes de données;
- D’autre part, on désire étudier s’il y a une relation entre deux ou plusieurs variables.
Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et qu’on applique aux proportions d’échantillons factoriels »
Le test d’ajustement du χ2
Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et pour comparer les moyennes d’échantillons numériques »
Le t-test
Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et pour comparer la distribution d’un échantillon numérique à une loi de distribution Normale »
Le test de shapiro-wilk
Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et pour comparer les moyennes de deux échantillons numériques qui ne respectent pas les conditions d’application d’un t-test »
Le test des rangs signés de Wilcoxon
Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et à un facteur pour comparer les moyennes de > 2 échantillons numériques »
Le test d’ANOVA
Qu’est-ce qu’une série statistique double?
Il s’agit de l’analyse simultanée de deux variables numériques mesurées sur les mêmes éléments.
Quelle condition doit-on respecter pour avoir une série statistique?
il faut qu’au moins une des deux variables soit aléatoire (2 variables aléatoires est aussi possible)
Qui-suis-je? « représente la moyenne des carrés des écarts de chaque élément de l’échantillon par rapport à la moyenne du groupe. »
Variance
Qui-suis-je? « Elle permet de quantifier la force et la direction (positive ou négative) de l’association entre deux variables numériques. »
Co-variance
Quelle est la différence principale entre la variance et la co-variance?
Dans la co-variance, qu’on fait la somme du produit des écarts de chacune des variables de la série double (X et Y) à sa propre moyenne (X¯et Y¯), au lieu de prendre le carré des écarts d’une seule variable.
Quels sont les autres particularités de la covariance?
- La covariance est commutative
- X¯ et Y¯ représentent les moyennes des deux échantillons de même taille qui recensent les mesures de la série double;
- La covariance sera élevée et positive si les déviations des valeurs à la moyenne en X et en Y varient ensemble;
- À l’inverse, la covariance sera élevée et négative si les déviations des valeurs à la moyenne en X et en Y varient de façon opposée;
- La covariance sera nulle si X et Y varient de façon indépendante l’une de l’autre.
Qui-suis-je? « standardisation de la covariance par les écarts-types des échantillons, SX et SY »
coefficient de corrélation de Pearson rxy
Dans quel intervalle le coefficient de Pearson varie-t-il?
-1 < 0 < 1
Qu’implique un coefficient de Pearson de -1?
de 0 ?
de 1 ?
a) lorsque X et Y varient dans des proportions exactement opposées, c’est-à-dire que la corrélation est parfaite et négative entre les deux variables;
b) lorsque X et Y sont parfaitement indépendants, c’est-à-dire qu’il n’y a aucune corrélation entre les deux variables;
c) lorsque X et Y varient exactement dans les mêmes proportions (varient ensemble), c’est-à-dire que la corrélation est parfaite et positive entre les deux variables.
Vrai ou faux? Le coefficient de corrélation est une mesure de dépendance linéaire
Vrai
Vrai ou faux? rxy quantifie à quel point X et Y varient ensemble linéairement mais aussi de combien varie Y selon X
Faux, ça prend la régression linéaire pour savoir de combien Y varie selon X
Quelles sont les possibles hypothèses statistiques pour le test de corrélation de Pearson?
H0: il n’y a pas de lien/pas de relation entre les variables ⟹ρ=0
H1 : il y a un lien/une relation entre les variables ⟹ρ≠0
pour un test bilatéral;
ou
H1 : les variables varient ensemble (de façon opposée) ⟹ρ>0 (ρ<0) pour un test unilatéral, possible puisque −1≤ρ≤1
.
Vrai ou faux? La statistique de test nous permettant de calculer la p-value du coefficient de corrélation de Pearson est une valeur de t
Vrai
Quel est le degré de liberté pour le coefficient de correlation de Pearson?
dl = n − 2
Quelles sont les conditions (4) d’application à respecter pour pouvoir calculer le coefficient de corrélation de Pearson et effectuer un test de significativité?
- L’échantillonnage de la série de données double est indépendant et aléatoire;
- Les mesures de X et Y suivent une distribution Normale bivariée :
- Les valeurs de X et Y sont chacune distribuées normalement
- la relation entre X et Y est linéaire
Vrai ou faux? « Ces conditions d’application à respecter pour pouvoir calculer le coefficient de corrélation de Pearson et effectuer un test de significativité sont très sensibles à la présence de valeurs extrêmes (outliers)
vrai
Dans le cas où, après un test de Shapiro-Wilk, on constate que X et Y ne sont pas distribués normalement, quelles sont les options (2) qui s’offrent à nous?
- Si on décide d’appliquer une transformation, il est dans ce cas tout à fait possible de n’en transformer qu’une seule des deux.
- Sinon il existe une statistique et un test équivalents non-paramétriques : le coefficient de corrélation de Spearman.
Il est vrai de dire que le coefficient de Spearman est beaucoup moins sensible aux valeurs extrêmes.
oui true