Cours 5 Flashcards
Qu’est-ce qu’une corrélation ?
La corrélation est une mesure statistique qui indique dans quelle mesure deux variables sont liées entre elles. En termes simples, elle quantifie la force et la direction de la relation entre deux variables, ce qui nous permet de mieux comprendre comment elles interagissent.
Qui suis-je?
cruciales pour déterminer quel type de corrélation appliquer. Il existe quatre échelles : nominale, ordinale, d’intervalle et de rapport.
Les échelles de mesure de Stevens
Vrai ou faux?
Un échantillon suffisamment grand est nécessaire pour obtenir des résultats fiables.
Cependant, en pratique, Phi est souvent utilisé pour des études relativement petites (tant que les fréquences dans chaque cellule du tableau 2x2 ne sont pas trop faibles).
Vrai
Vrai ou faux
Le test de corrélation de Phi (Φ) est une mesure paramétrique.
FAUX
Le test de corrélation de Phi (Φ) est une mesure non paramétrique.
Vrai ou faux?
Pour utiliser le test de corrélation de Phi (Φ), il est important de respecter certains préalables afin de garantir la validité et l’usage approprié de cette méthode.
Vrai
Quelles ont les conditions essentielles pour utiliser le test de corrélation de Phi (Φ)?
1)Variables nominales et dichotomiques
2.Taille de l’échantillon
3. Fréquences suffisantes dans chaque cellule
4. Relation entre deux variables indépendantes
5. Données discrètes/catégorielles
6. Normalisation des données (optionnelle)
Le test Phi s’applique uniquement aux variables ______ qui sont ______, c’est-à-dire des variables qui ont ______. Par exemple : …
Les données doivent être organisées en _______, avec deux ______ et deux _______, représentant les deux catégories des deux variables.
-nominales
-dichotomiques
-deux catégories
… genre (homme/femme) ou réussite à un test (réussi/échoué)
-tableau de contingence 2x2
-lignes
-colonnes
Un échantillon suffisamment ______ est nécessaire pour obtenir des résultats _______. Comme pour tous les tests statistiques, plus votre échantillon est grand, plus le test Phi sera ______.
-grand
- fiables
-précis
Assurez-vous que chaque cellule du tableau de contingence 2x2 (les quatre combinaisons possibles) contient un nombre suffisant d’_______. Si certaines cellules contiennent très peu d’observations, le test Phi peut donner des résultats _______ ou _______.
-observations
-biaisés
-non fiables
Quelle est la règle générale en ce qui concerne la condition de fréquences suffisantes dans chaque cellule?
Les fréquences attendues dans chaque cellule doivent être supérieures à 5 pour que le test soit valide.
Les deux variables étudiées doivent être _______. Phi est utilisé pour évaluer l’_______ entre deux variables sans sous-entendre de _______.
-indépendantes l’une de l’autre
-association
-relation causale
Les données doivent être ______. Si vos données sont ______ ou _______, vous devez utiliser d’autres types de corrélations comme ______ ou ______.
-catégorielles (nominales)
-continues
-ordinales
-Pearson
-Spearman
Bien que Phi soit couramment utilisé pour des données ______, dans certains cas, il peut être ______ (variant entre __ et __) pour être interprété de manière similaire à la corrélation de ______.
-brutes
-normalisé
-1 et +1
- Pearson
En résumé, quels sont les préalables absolument nécessaires pour utiliser Phi?
- Variables dichotomiques (2 catégories chacune).
- Tableau de contingence 2x2.
- Échantillon de taille suffisante.
- Fréquences attendues de plus de 5 dans chaque cellule.
- Les deux variables doivent être indépendantes.
Donnez un exemple pratique en psychologie de l’utilisation de Phi.
Imaginons que vous menez une étude pour déterminer s’il existe une relation entre le genre (homme/femme) et le succès d’une thérapie (réussi/échoué) chez des patients souffrant de dépression. Vous organisez vos données dans un tableau 2x2, puis vous utilisez le coefficient Phi pour évaluer la force de l’association entre ces deux variables dichotomiques. On pourrait voir s’il y a une association significative entre le genre et le succès de la thérapie.
Si vous avez des variables avec plus de deux catégories, vous utiliserez plutôt ?
Cramér’s V
Si certaines cellules du tableau de contingence ont des fréquences faibles (moins de 5), il est recommandé d’utiliser?
le test exact de Fisher
Les préalables pour utiliser le test de Cramér’s V sont légèrement ______ de ceux du test de Phi, mais ils partagent quelques _____.
Le test de Cramér’s V est utilisé pour mesurer …
Particulièrement lorsque l’une ou les deux variables ont …
-différents
-points communs
… la force de l’association entre des variables catégoriques
…plus de deux catégories
Quels sont les préalables pour utiliser Cramér’s V? (5)
- Variables nominales avec plus de deux catégories.
- Tableau de contingence plus grand que 2x2 (n x m).
- Échantillon suffisamment grand.
- Fréquences suffisantes (fréquence attendue > 5) dans chaque cellule.
- Les observations doivent être indépendantes.
Le test de Cramér’s V s’applique aux variables ______, qui peuvent avoir plus de _______. Contrairement au test de Phi qui s’applique aux variables _______ (2x2), Cramér’s V est utilisé pour des tableaux de contingence plus _____, comme des tableaux 2x3, 3x3, ou de tailles encore plus _____.
Donnez un exemple.
-nominales
-deux catégories
-dichotomiques
-larges
-grandes
… Vous pourriez avoir une variable nominale comme niveau d’éducation (élevé, moyen, faible) et une autre variable comme type de thérapie préférée (thérapie cognitive, psychanalyse, TCC).
Comme pour le test de Phi, un échantillon de ______ est nécessaire pour que le test de Cramér’s V donne des résultats _____. Plus l’échantillon est grand, plus les résultats sont ____.
-taille suffisante
-fiables
-précis
Le tableau de contingence doit comporter …
Cela peut inclure des tableaux de ____, 3x3, ou des tableaux avec un nombre encore plus _____ de lignes et de colonnes.
Donnez un exemple.
…plus de deux catégories dans l’une ou les deux variables.
-2x3
-grand
Si vous étudiez l’association entre le genre (homme, femme, autre) et la préférence de thérapie (cognitive, psychanalyse, comportementale), vous auriez un tableau de contingence 3x3.
Il est important de s’assurer que les cellules du tableau de contingence contiennent _________. Comme pour le test de Phi, les fréquences attendues dans chaque cellule doivent être supérieures à ___ pour que le test soit _____. Si certaines cellules contiennent des valeurs très _____, cela peut affecter la _____du test.
-suffisamment de données
-5
-valide
-faibles
-fiabilité
Les observations dans chaque cellule du tableau de contingence doivent être ______. Cela signifie que les réponses ou les catégories ne doivent pas ______ les autres.
-indépendantes
-influencer
La valeur de Cramér’s V est toujours comprise entre __ et __, où 0 signifie … et 1 signifie … Cependant, il ne mesure pas la ______ de l’association, mais seulement la ____.
0 et 1
…aucune association entre les variables
…une association parfaite
-direction
-force
Si Cramér’s V est de 0,3, cela indique…
association modérée
Si Cramér’s V est de 0,7, cela indique…
forte association
Donnez un exemple pratique en psychologie de l’utilisation de Cramers’s V.
Imaginons que vous menez une étude pour examiner l’association entre le niveau d’éducation des participants (élevé, moyen, faible) et leur préférence pour un type de thérapie (thérapie cognitive, psychanalyse, TCC). Vous pourriez organiser vos données dans un tableau de contingence 3x3, et utiliser Cramér’s V pour évaluer la force de cette association.
Quand choisir Cramér’s V par rapport à Phi ?
*Utilisez Cramér’s V lorsque vous avez un tableau de contingence plus grand que 2x2 (plus de deux catégories pour au moins une des variables).
*Si vous travaillez avec des variables dichotomiques (2x2), le test de Phi est plus approprié.
Spearman est une méthode de corrélation ______ qui est utilisée lorsque les données ne répondent pas aux exigences (_____,_____)de la corrélation de _____. Elle est idéale pour mesurer des relations ______, même si elles ne sont pas _____.
-non paramétrique
-(linéarité, normalité).
-Pearson
-monotones
-linéaires
Vrai ou faux?
Nous ne pouvons pas utiliser Spearman avec des données nominales.
Vrai
Vrai ou faux?
Nous pouvons utiliser Spearman lorsqu’il s’agit de données continues (ordinales, intervalles, rapport)
Vrai
Vrai ou faux?
Spearman serait plus robuste que Pearson quand la paramétrie des données ne sera pas là.
Vrai
Si le graphique n’est pas linéaire, alors Pearson est trop affecté par le manque de linéarité, la non normalité, le manque d’homogénéité des données.
Quelle est la solution?
Ainsi, Spearman sera plus adéquat.
Vrai ou faux?
L’étendue sera le concept normalisé dans le cadre d’un test non paramétrique.
Vrai
Nous voulons normaliser la distribution. Puisque nous ne pouvons pas interpréter la valeur brute, il faut normaliser les résultats pour pouvoir les interpréter.
Nous allons regarder la ______ dans le cadre des corrélations, la covariance va être normaliser afin de créer la corrélation.
-covariance
Quels sont les préalables pour utiliser la corrélation de Spearman (ρ)? (6)
- Variables ordinales ou quantitatives continues, mais non linéaires ou non normales.
- Relation monotone (croissante ou décroissante, mais pas nécessairement linéaire).
- Absence d’hypothèse sur la distribution des données.
- Rangs des données utilisés pour mesurer la relation.
- Robustesse face aux outliers, donc utile si des valeurs extrêmes sont présentes.
La corrélation de Spearman est utilisée pour des variables ______ ou pour des variables ______ lorsque la relation entre les variables n’est pas _____, ou que les données ne respectent pas la _____.
Donnez un exemple.
-ordinales (les données peuvent être classées, mais la distance entre les points n’est pas nécessairement constante)
-quantitatives continues
-linéaire
-normalité
Si vous voulez mesurer la relation entre le niveau de satisfaction (classé sur une échelle de 1 à 5) et la motivation au travail (mesurée sur une autre échelle de 1 à 10), mais que la relation n’est pas linéaire, Spearman est une bonne solution.
Vrai ou faux?
Kolmogorov Smirnov a été créer pour tester la normalité.
Shapiro-Wilk était un test de fréquence. Il n’était pas dans le but de mesurer la normalité.
Shapiro-Wilk a été créer pour tester la normalité.
Kolmogorov Smirnov était un test de fréquence. Il n’était pas dans le but de mesurer la normalité.
Spearman mesure la _____ et la _____ d’une relation _____ entre __ variables. Cela signifie que, lorsque les valeurs d’une variable ______ou______, les valeurs de l’autre variable tendent à faire de même, mais pas nécessairement à un rythme _____.
Donnez un exemple
-force
-direction
-monotone
-2
-augmentent ou diminuent
-constant (relation non linéaire mais monotone)
Exemple : Si vous examinez la relation entre le temps passé à étudier et les scores aux examens, une relation monotone pourrait montrer qu’à mesure que le temps d’étude augmente, les résultats augmentent aussi, mais pas toujours à un rythme constant.
Vrai ou faux?
Spearman ne fait pas d’hypothèses sur la distribution des données (contrairement à Pearson, qui exige des données distribuées normalement). Il peut donc être utilisé lorsque les données ne suivent pas une distribution normale.
Vrai
Vrai ou faux?
Si vos données sont très asymétriques ou contiennent des valeurs extrêmes (outliers), la corrélation de Spearman est souvent plus adaptée que Pearson.
Vrai
Le coefficient de Spearman varie entre ____ et ____
+1 = _______
-1 = _______
0 = _______
-1 et +1
+1 signifie une corrélation monotone positive parfaite (quand une variable augmente, l’autre augmente aussi de manière monotone).
-1 signifie une corrélation monotone négative parfaite (quand une variable augmente, l’autre diminue de manière monotone).
0 signifie aucune corrélation.
Quelle corrélation utiliseriez vous dans la situation suivante :
Imaginons que vous meniez une étude pour mesurer la relation entre le niveau d’anxiété et le nombre d’heures de sommeil chez des patients. Le niveau d’anxiété est mesuré sur une échelle de 1 à 10, et les heures de sommeil varient entre 4 et 9 heures par nuit. La relation entre l’anxiété et le sommeil est probablement monotone (plus d’anxiété = moins de sommeil), mais peut ne pas être linéaire.
Spearman
Quels sont les préalables pour utiliser Spearman?
Résumé des préalables pour utiliser Spearman :
1. Variables ordinales ou quantitatives continues, mais non linéaires ou non normales.
2. Relation monotone (croissante ou décroissante, mais pas nécessairement linéaire).
3. Absence d’hypothèse sur la distribution des données.
4. Rangs des données utilisés pour mesurer la relation.
5. Robustesse face aux outliers, donc utile si des valeurs extrêmes sont présentes.
Quelle corrélation utiliser?
Si vous avez une relation linéaire et que les données sont normalement distribuées
Pearson
Sur une représentation graphique de corrélation, pour que celle-ci soit considérée monotone, que doit-on observer?
Être monotone : elle doit partir du haut ou du bas et finir à l’inverse. Donc quand car part d’en haut, elle finit en bas et inversement. Il faut que le point le plus bas ne soit pas touché par d’autre point si on fait des nuages de points
Quelle corrélation utiliser?
si vous avez des variables ordinales ou continues avec une relation non linéaire, monotone, ou si vos données ne respectent pas la normalité.
Speaman
Vrai ou faux?
L’ensemble des tests utilisés dans SPSS prennent comme base de Pearson
Vrai
Vrai ou faux?
Si vos données sont très asymétriques ou contiennent des valeurs extrêmes (outliers), la corrélation de Spearman est souvent plus adaptée que Pearson.
Vrai
Spearman ne fait pas d’hypothèses sur la ______ des données (contrairement à ______). Il peut donc être utilisé lorsque les données ne suivent pas une ______.
-distribution
-Pearson
-distribution normale
Spearman fonctionne en _______, c’est-à-dire en convertissant les valeurs ______ en _______. Ensuite, il mesure la relation entre les ______. Cette technique permet de traiter les relations ______ sans supposer que la relation est ______.
-classant les données
-brutes
-rangs
-rangs des deux variables
-monotones
-linéaire
Si vous voulez voir comment des étudiants se classent par rapport à leur motivation et à leurs performances académiques, quelle corrélation pouvez vous utiliser?
Spearman classera les étudiants selon ces deux critères et évaluera si ceux qui ont une motivation élevée ont aussi des performances élevées.
Vrai ou faux?
Les valeurs aberrantes n’influencent pas Spearman puisqu’il ne prend pas en compte la valeur puisqu’il considèrent seulement le rang.
Vrai
Vrai ou faux?
Les statistiques paramétrique tient compte de la valeur. Les statistiques non paramétrique ne prennent pas en compte la valeur.
Vrai
Vrai ou faux?
La corrélation de Pearson est moins sensible aux valeurs extrêmes (outliers) que Spearman. Si vos données contiennent des valeurs aberrantes qui pourraient influencer négativement une corrélation linéaire, Pearson sera votre choix.
FAUX!
C’est l’inverse.
La corrélation de Spearman est moins sensible aux valeurs extrêmes (outliers) que Pearson. Si vos données contiennent des valeurs aberrantes qui pourraient influencer négativement une corrélation linéaire, Spearman sera votre choix.
Dans une étude mesurant le lien entre le temps d’écran quotidien et la qualité du sommeil, si quelques participants montrent des valeurs très extrêmes (beaucoup de temps d’écran mais toujours un bon sommeil), quelle corrélation serait souhaitable?
Spearman serait plus robuste que Pearson pour capturer la relation.
Qui suis-je?
Les préalables pour m’utiliser sont plus stricts que pour les tests non paramétriques comme Spearman ou Kendall.
la corrélation de Pearson (ou coefficient de corrélation linéaire de Pearson)
Vrai ou faux?
Pearson est utilisé pour mesurer la force et la direction d’une relation linéaire entre deux variables quantitatives continues.
Vrai
Donnez un exemple de données continues que Pearson pourrait analyser
La relation entre le poids d’une personne et sa taille est un bon exemple de variables continues que Pearson pourrait analyser.
La corrélation de Pearson est utilisée pour des variables _______, c’est-à-dire des données qui peuvent prendre un large éventail de valeurs, avec des ______ bien définis entre les valeurs.
-continues
- intervalles
La corrélation de Pearson mesure spécifiquement la _______. Cela signifie que lorsque l’une des variables change, _________ (une droite peut être tracée à travers les points de données).
-relation linéaire entre deux variables
-l’autre change de manière proportionnelle
Si vous mesurez la relation entre le nombre d’heures d’étude et les notes obtenues à un examen, Pearson est approprié si …
… l’augmentation du temps d’étude entraîne une augmentation proportionnelle des résultats, formant une ligne droite dans un graphique.
Condition à vérifier : Pour s’assurer qu’il y a bien une relation linéaire, il est recommandé de …
Si les points forment une ______, Pearson ne sera pas approprié, et une autre méthode (comme la ______) pourrait être nécessaire.
… tracer un nuage de points et de vérifier visuellement que les points suivent une tendance linéaire.
-courbe
-régression non linéaire
Afin d’effectuer la corrélation de Pearson :
Les variables doivent être ______, ou du moins ne pas dévier trop fortement de la normalité. Cela signifie que les données doivent suivre une ______.
-normalement distribuées
-courbe en forme de cloche (distribution gaussienne)
Quels tests peut-on utiliser afin de tester la normalité?
*Test de normalité : Vous pouvez utiliser des tests comme le test de Shapiro-Wilk ou le test de Kolmogorov-Smirnov pour vérifier si les données sont normalement distribuées.
Vrai ou faux?
Si vous étudiez la relation entre le niveau de satisfaction au travail et le salaire, vous devrez vérifier que ces deux variables suivent approximativement une distribution normale avant d’utiliser Pearson.
Vrai
Vrai ou faux?
J’ai envie de me gunner
VRAI
Afin d’effectuer la corrélation de Pearson :
Les données doivent respecter le principe d’_____, ce qui signifie que la variance des résidus doit être constante à travers les niveaux de la variable indépendante.
En d’autres termes, les ______ ne doivent pas augmenter ou diminuer de manière _______ à mesure que la valeur de la _______.
Condition à vérifier : Vous pouvez vérifier l’homoscédasticité en … et en vous assurant que les points sont …
-homoscédasticité
-erreurs de prédiction
-systématique
-variable indépendante change
… traçant un graphique des résidus (les erreurs)
…distribués de manière aléatoire.
homoscédasticité :
Si vous analysez la relation entre la durée de l’exercice physique et la perte de poids, l’homoscédasticité signifie que les ____ entre les valeurs _____ et _____ devraient être ______ à travers les différentes durées d’exercice.
-écarts
-prévues
-réelles
-constants
Vrai ou faux?
L’indépendance des observations est nécessaire pour utiliser Pearson.
Vrai
Qu’est-ce que l’indépendance des observations?
Les observations doivent être indépendantes, c’est-à-dire qu’une valeur observée pour une variable ne doit pas être influencée par les autres valeurs. Chaque paire de données doit représenter une observation distincte.
Vrai ou faux?
Si vous mesurez la relation entre le temps passé à travailler et la productivité, chaque observation (chaque individu) doit être indépendante des autres. Si vous mesurez plusieurs observations pour une même personne à différents moments, cela respecte l’indépendance.
Faux
Si vous mesurez la relation entre le temps passé à travailler et la productivité, chaque observation (chaque individu) doit être indépendante des autres. Si vous mesurez plusieurs observations pour une même personne à différents moments, cela violerait l’indépendance.
Les outliers (valeurs extrêmes) peuvent avoir un effet disproportionné sur la corrélation de Pearson, car ce test est ______. Avant d’utiliser Pearson, il est recommandé de ____ les outliers et, si nécessaire, de les ____.
Condition à vérifier : ______ ou ______ pour identifier les valeurs
____ élevées ou basses qui pourraient ______.
-sensible aux écarts importants
-vérifier
-traiter
-Tracez un nuage de points
-examinez les statistiques descriptives
-anormalement
- biaiser les résultats
Vrai ou faux?
Si vous examinez la relation entre le revenu annuel et les dépenses de consommation, une valeur extrême, comme celle d’une personne qui gagne exceptionnellement plus que les autres, pourrait biaiser la corrélation de Pearson.
Vrai
Le coefficient de Pearson (r) varie entre __ et __ , où :
+1 signifie …
-1 signifie …
0 signifie une …
-1 et +1
…une corrélation linéaire positive parfaite (lorsqu’une variable augmente, l’autre augmente proportionnellement).
…une corrélation linéaire négative parfaite (lorsqu’une variable augmente, l’autre diminue proportionnellement).
…aucune corrélation linéaire.
Imaginons que vous meniez une étude pour mesurer la relation entre le nombre d’heures de thérapie et la réduction des symptômes dépressifs chez des patients. Les deux variables sont continues et normalement distribuées.
Quelle corrélation serait appropriée et à quelle condition?
Si la relation est linéaire, la corrélation de Pearson serait le test approprié pour évaluer la force de cette relation.
Quelles sont les 6 préalables pour utiliser Pearson?
1.Variables continues.
2.Relation linéaire entre les deux variables.
3.Normalité des distributions des deux variables.
4.Homoscédasticité : Variance constante des résidus.
5.Indépendance des observations.
6.Absence d’outliers influents.
Utilisez Pearson si vous avez des variables ____, si vous observez une relation ____, et si vos données respectent les hypothèses de ____ et d’____. Si ces conditions ne sont pas respectées, envisagez d’utiliser la corrélation de ____ ou ____, qui sont des alternatives ____ pour des relations ____ ou pour des données ____.
-Continues
-Linéaire
-normalité
-homoscédacité
-Spearman
-Tau de Kendall
-non paramétriques
-non linéaires
-ordinales
Qui suis-je?
Mesurent la force d’association entre variables catégorielles.
Phi et V de Cramer
Qui suis-je?
Conviennent aux variables ordinales et aux relations monotones.
Les corrélations de Spearman
Qui suis-je?
transforme les données en rangs
Spearman
Qui suis-je?
est plus robuste pour les petits échantillons et les ex-aequo (2 ou plus occupent la même position)
Tau de Kendall
Qui suis-je?
convient pour les variables continues avec une relation linéaire. Sensible aux outliers et nécessite une distribution normale des données.
La corrélation de Pearson