Cours 8 : Relations entre variables numériques = corrélation Flashcards by frédérique Mathieu

Quelles sont les deux types d’hypothèses étudiées en statistique inférentielle?

D’une part, on s’intéresse à savoir s’il y a une différence entre des groupes de données;
D’autre part, on désire étudier s’il y a une relation entre deux ou plusieurs variables.

How well did you know this?

Not at all

Perfectly

Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et qu’on applique aux proportions d’échantillons factoriels »

Le test d’ajustement du χ2

How well did you know this?

Not at all

Perfectly

Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et pour comparer les moyennes d’échantillons numériques »

Le t-test

How well did you know this?

Not at all

Perfectly

Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et pour comparer la distribution d’un échantillon numérique à une loi de distribution Normale »

Le test de shapiro-wilk

How well did you know this?

Not at all

Perfectly

Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et pour comparer les moyennes de deux échantillons numériques qui ne respectent pas les conditions d’application d’un t-test »

Le test des rangs signés de Wilcoxon

How well did you know this?

Not at all

Perfectly

Qui-suis-je? « tests statistiques utilisé pour évaluer les différences entre des groupes de données et à un facteur pour comparer les moyennes de > 2 échantillons numériques »

Le test d’ANOVA

How well did you know this?

Not at all

Perfectly

Qu’est-ce qu’une série statistique double?

Il s’agit de l’analyse simultanée de deux variables numériques mesurées sur les mêmes éléments.

How well did you know this?

Not at all

Perfectly

Quelle condition doit-on respecter pour avoir une série statistique?

il faut qu’au moins une des deux variables soit aléatoire (2 variables aléatoires est aussi possible)

How well did you know this?

Not at all

Perfectly

Qui-suis-je? « représente la moyenne des carrés des écarts de chaque élément de l’échantillon par rapport à la moyenne du groupe. »

Variance

How well did you know this?

Not at all

Perfectly

Qui-suis-je? « Elle permet de quantifier la force et la direction (positive ou négative) de l’association entre deux variables numériques. »

Co-variance

How well did you know this?

Not at all

Perfectly

Quelle est la différence principale entre la variance et la co-variance?

Dans la co-variance, qu’on fait la somme du produit des écarts de chacune des variables de la série double (X et Y) à sa propre moyenne (X¯et Y¯), au lieu de prendre le carré des écarts d’une seule variable.

How well did you know this?

Not at all

Perfectly

Quels sont les autres particularités de la covariance?

La covariance est commutative
X¯ et Y¯ représentent les moyennes des deux échantillons de même taille qui recensent les mesures de la série double;
La covariance sera élevée et positive si les déviations des valeurs à la moyenne en X et en Y varient ensemble;
À l’inverse, la covariance sera élevée et négative si les déviations des valeurs à la moyenne en X et en Y varient de façon opposée;
La covariance sera nulle si X et Y varient de façon indépendante l’une de l’autre.

How well did you know this?

Not at all

Perfectly

Qui-suis-je? « standardisation de la covariance par les écarts-types des échantillons, SX et SY »

coefficient de corrélation de Pearson rxy

How well did you know this?

Not at all

Perfectly

Dans quel intervalle le coefficient de Pearson varie-t-il?

-1 < 0 < 1

How well did you know this?

Not at all

Perfectly

Qu’implique un coefficient de Pearson de -1?
de 0 ?
de 1 ?

a) lorsque X et Y varient dans des proportions exactement opposées, c’est-à-dire que la corrélation est parfaite et négative entre les deux variables;
b) lorsque X et Y sont parfaitement indépendants, c’est-à-dire qu’il n’y a aucune corrélation entre les deux variables;
c) lorsque X et Y varient exactement dans les mêmes proportions (varient ensemble), c’est-à-dire que la corrélation est parfaite et positive entre les deux variables.

How well did you know this?

Not at all

Perfectly

Vrai ou faux? Le coefficient de corrélation est une mesure de dépendance linéaire

Vrai

How well did you know this?

Not at all

Perfectly

Vrai ou faux? rxy quantifie à quel point X et Y varient ensemble linéairement mais aussi de combien varie Y selon X

Study These Flashcards

Faux, ça prend la régression linéaire pour savoir de combien Y varie selon X

Quelles sont les possibles hypothèses statistiques pour le test de corrélation de Pearson?

Study These Flashcards

H0: il n’y a pas de lien/pas de relation entre les variables ⟹ρ=0

H1 : il y a un lien/une relation entre les variables ⟹ρ≠0
pour un test bilatéral;

H1 : les variables varient ensemble (de façon opposée) ⟹ρ>0 (ρ<0) pour un test unilatéral, possible puisque −1≤ρ≤1
.

Vrai ou faux? La statistique de test nous permettant de calculer la p-value du coefficient de corrélation de Pearson est une valeur de t

Study These Flashcards

Vrai

Quel est le degré de liberté pour le coefficient de correlation de Pearson?

Study These Flashcards

dl = n − 2

Quelles sont les conditions (4) d’application à respecter pour pouvoir calculer le coefficient de corrélation de Pearson et effectuer un test de significativité?

Study These Flashcards

L’échantillonnage de la série de données double est indépendant et aléatoire;
Les mesures de X et Y suivent une distribution Normale bivariée :
Les valeurs de X et Y sont chacune distribuées normalement
la relation entre X et Y est linéaire

Vrai ou faux? « Ces conditions d’application à respecter pour pouvoir calculer le coefficient de corrélation de Pearson et effectuer un test de significativité sont très sensibles à la présence de valeurs extrêmes (outliers)

Study These Flashcards

vrai

Dans le cas où, après un test de Shapiro-Wilk, on constate que X et Y ne sont pas distribués normalement, quelles sont les options (2) qui s’offrent à nous?

Study These Flashcards

Si on décide d’appliquer une transformation, il est dans ce cas tout à fait possible de n’en transformer qu’une seule des deux.
Sinon il existe une statistique et un test équivalents non-paramétriques : le coefficient de corrélation de Spearman.

Il est vrai de dire que le coefficient de Spearman est beaucoup moins sensible aux valeurs extrêmes.

Study These Flashcards

oui true

Quelle est la seule différence entre le coefficient de Pearson et celui de Spearman?

Le coefficient de Spearman se calcule comme le coefficient de Pearson, mais sur les rangs des valeurs :

Quelles sont les hypothèses statistiques possibles pour le test du coefficient de Spearman?

H0 : il n’y a pas de lien/pas de relation entre les variables (ρS = 0) H1 : il y a un lien/une relation entre les variables (ρS≠0) pour un test bilatéral; ou H1 : les variables varient ensemble (de façon opposée) [ρS>0 (ρS<0)] pour un test unilatéral, possible puisque −1≤ρS≤1 .

Quelle est la statistique de test de Spearman à effectuer si n > 100 ?

on utilise la même procédure que celle utilisée pour le coefficient de Pearson et on calcule une statistique de t, mais avec la valeur de rS

Quelle est la statistique de test de Spearman à effectuer si n < 100 ?

on doit comparer rS calculé à une valeur critique issue de la table de Spearman correspondant au nombre d’observations n

Vrai ou faux : la conclusion d'un test de Spearman ne se fait jamais à l'aide d'un intervalle de confiance.

Vrai, La conclusion du test s’obtient donc en comparant notre statistique de test appropriée à la situation (soit rS si n<100, soit tcalculée si n>100) à une valeur critique correspondante, ou bien en utilisant la fonction cor.test(..., method = "spearman" ) dans R pour obtenir une p-value… mais pas d’intervalle de confiance !

Qui-suis-je? « recense les valeurs des coefficients de corrélations (Pearson ou Spearman, peu importe !) entre chacune des variables mesurées conjointement lors d’un échantillonnage »

Matrice des corrélations

Vrai ou faux : La matrice de corrélation est symétrique

Vrai, on analyse seulement sa partie supérieure ou inférieure, car elles sont égales.

Vrai ou faux : La diagonale d'une matrice de corrélation représente le coefficient de corrélation d’une variable avec elle même, donc il sera de 1;

Vrai

Dans quelle situation précise les matrices de corrélation sont-elles utilisées?

lors d’analyses de régression multiples pour lesquelles la colinéarité entre les diverses variables explicatives est un sérieux problème

Vrai ou faux : une corrélation a un pouvoir explicatif ou prédictif sur la relation entre deux variables.

FAUX : ne corrélation n’a AUCUN pouvoir explicatif ou prédictif sur la relation entre deux variables.

Vrai ou faux : une corrélation ne renseigne pas sur la causalité entre deux variables

vrai

Quels sont les éléments (4) nécessaires pour démontrer une relation cause à effet (la causalité) entre 2 variables?

il faut pouvoir : 1. Manipuler la cause (faire/répéter des expériences); 2. Mesurer les effets; 3. Contrôler les autres variables; 4. Tester les probabilités que les résultats aient pu résulter simplement du hasard.

Quand un test statistique nous indique une corrélation entre X et Y , il y a généralement 3 possibilités, quelles sont-elles?

1. X cause Y 2. Y cause X 3. X et Y sont causées par un troisième facteur : Z, il s’agit de corrélation partielle.

Qui-suis-je? « cas où deux variables semblent fortement liées, alors que cette liaison repose en fait sur l’intervention d’une troisième variable »

Corrélation partielle

Que fait une analyse de corrélation partielle?

L’analyse de corrélation partielle corrige ce problème : elle mesure la liaison en annulant l’effet de la troisième variable, dite « variable de contrôle »

Quelle est la notation du coefficient de corrélation partielle?

rAB,C

Comment faire pour calculer rAB,C?

on doit calculer les coefficients de corrélation entre les différentes variables. Pour ce faire, on peut utiliser le coefficient de Pearson ou de Spearman, mais on ne doit pas « mélanger » les deux !

Cours 8 : Relations entre variables numériques = corrélation Flashcards

(41 cards)