Cours 5 Flashcards
Qu’est-ce qu’un coefficient de corrélation r (de Pearson)?
Un indice de l’ajustement entre deux variables
VRAI ou FAUX
Le coefficient de corrélation r de Pearson peut-être positif ou négatif suivant la relation entre les variables
VRAI
Le coefficient de corrélation r de Pearson varie de […] à […]
Le coefficient de corrélation r de Pearson varie de -1 à 1
La valeur […] et […] présent une relation parfaite alors que […] est une absence de relation
La valeur -1 et 1 présent une relation parfaite alors que 0 est une absence de relation
Avec le coefficient de corrélation r de Pearson, plus la corrélation est forte, plus les points sur le diagramme de dispersion sont resserrés […] de la droite de régression
Avec le coefficient de corrélation r de Pearson, plus la corrélation est forte, plus les points sur le diagramme de dispersion sont resserrés autour de la droite de régression
Quelle est la différence entre la valeur r et la valeur R?
r: Corrélation simple, Coefficient de corrélation
R: Corrélation multiple -> Corrélation entre deux ensembles de variables ou une variable et un ensemble de variables
R et r sont des estimés sur des […]
R et r sont des estimés sur des échantillons
Chacun des points sur un diagramme de dispersion représentent une […].
Chacun des points sur un diagramme de dispersion représentent une unité d’observation.
La corrélation (simple ou multiple) va nous dire dans quel mesure les […] sont alignés par rapport à notre droite de […]
La corrélation (simple ou multiple) va nous dire dans quel mesure les points sont alignés par rapport à notre droite de régression
Pourquoi utilise-t-on une droite de régression?
La droite de régression nous permet de prédire la valeur de y en fonction de x.
-> Elle est placée en plein centre des unités d’observation pour permettre d’estimer l’emplacement des points
Pourquoi les points (unités d’observation) dans un diagramme de dispersion ont tendance à faire des nuages?
Car ils correspondent majoritairement à la courbe normal, et donc plus concentrés au milieu
Dans un diagramme de dispersion, s’il n’y avait aucune corrélation entre les variables, le nuage de point sera […]! On ne pourra pas placer une […] qui permettra d’estimer l’emplacement des points
Dans un diagramme de dispersion, s’il n’y avait aucune corrélation entre les variables, le nuage de point sera circulaire! On ne pourra pas placer une droite de régression qui permettra d’estimer l’emplacement des points
Qu’est-ce que la variance?
Indice de dispersion de la distribution
-> Différence entre la valeur observée - la moyenne / N - 1
Qu’est-ce que la moyenne?
Indice de localisation de la distribution
Qu’est-ce que la covariance?
Dans quel mesure les données ont des variances conjointes à ceux de l’autre distribution?
-> À la place de calculer les écarts par rapport à une variable, maintenant on calcule pour 2. Pu de différence au carré car on multiplie les deux différences.
Avec le coefficient de corrélation de Pearson (r), on fait la […] de la […] pour obtenir un écart-type
Avec le coefficient de corrélation de Pearson (r), on fait la racine carré de la variance pour obtenir un écart-type
VRAI ou FAUX
Pour obtenir la variance à partir de la covariance, on peut faire la racine carré de la covariance
FAUX
Il est impossible de faire la racine carré de la covariance
Avec le coefficient de corrélation de Pearson (r), lorsqu’on utilise SPSS la “sig. bilatéral” est quoi?
La probabilité d’observer cette corrélation si H0 est vraie (si la différence est dû au hasard) est de …
Quelles sont les caractéristiques particulières du coefficient de corrélation de Pearson (r)? (3)
1) Le coefficient de corrélation est indépendant des échelles de mesure
2) C’est un indice standardisé
3) Le coefficient de corrélation d’un échantillon (r) est un estimateur biaisé du coefficient de corrélation de la population (r) lorsque l’échantillon est petit
Le coefficient de corrélation au carré (r2 ou R2) - le r-carré - représente quoi?
Le coefficient de corrélation au carré (r2 ou R2) - le r-carré - représente le pourcentage de variance expliquée d’une variable par l’autre
Le coefficient de corrélation […] tient compte de N et corrige le biais.
Le coefficient de corrélation ajusté tient compte de N et corrige le biais.
Que veut-on dire par standardisé lorsqu’on parle du coefficient de corrélation de Pearson (r)?
Peu importe les variables utilisées, lorsqu’on parle de coefficient de corrélation, ce sera tjrs entre -1 et 1.
Pourquoi utilise-t-on le coefficient de corrélation de Pearson au carré (r2)?
Les valeurs négatives disparaissent. Ça devient aussi un pourcentage de variance expliquée.
Pourquoi utilise-t-on le coefficient de corrélation de Pearson au carré (R2)?
Quand on a plusieurs variables, il est difficile de dessiner un nuage de points et de se l’imaginer (plusieurs ensemble de variable et donc graphique sur plusieurs dimensions) donc le pourcentage de variance expliquée nous aide à imager les résultats
Le r au carré ajusté ajuste quoi?
L’ajustement est seulement pour les petits échantillons. On vient tenir compte du fait que r est un estimateur un peu biaisé dans les petits échantillons
La commande SPSS CORRELATION ne fournit pas la corrélation ajustée, mais il est facile de l’obtenir un r2 ajusté avec la commande […]
La commande SPSS CORRELATION ne fournit pas la corrélation ajustée, mais il est facile de l’obtenir un r2 ajusté avec la commande REGRESSION
Pour la puissance du r de Pearson, comme pour le test-t, dépend de la taille de […] (d) et de la taille de …
Pour la puissance du r de Pearson, comme pour le test-t, dépend de la taille de l’effet (d) et de la taille de l’échantillon (n)
Dans le cas du coefficient de corrélation r de Pearson, nous estimons que la taille d’effet attendue […] la corrélation attendue : d = p1 , la corrélation attendue
Dans le cas du coefficient de corrélation, nous estimons que la taille d’effet attendue égale la corrélation attendue : d = p1 , la corrélation attendue
Pour la puissance du r de Pearson, comme pour le test-t, nous calculons une valeur […]et utilisons une table de […] pour estimer la puissance
Pour la puissance du r de Pearson, comme pour le test-t, nous calculons une valeur d et utilisons une table de puissance pour estimer la puissance
Donnez un exemple de la façon d’énoncer le calcul de puissance pour le r de Pearson
Si nous voulons une puissance de X.XX, en regardant dans la table, nous voyons qu’il faut d(delta) = X.X
Nous avons: [Calcul]
Pour avoir une puissance de X.XX, avec une corrélation attendue de X.XX, il nous faut XX participants
Quelles sont les conditions d’utilisation du coefficient de corrélation de Pearson (r)? (3)
1) La relation entre les variables est linéaire
2) Les variables ont des échelles (plutôt) continues
a) Peut inclure l’échelle de Likert (Fonctionne un peu moins bien lorsque les variables sont dichotomiques, mais certains tests permettent quand même l’utilisation de la corrélation de Pearson)
3) Respecte les postulats
a) Homogénéité des variances
b) Normalité
Le […] est la mesure de corrélation la plus utilisée
Le coefficient de corrélation de Pearson (r) est la mesure de corrélation la plus utilisée
VRAI ou FAUX
Si les variances ne sont pas très similaires, il est impossible de faire la corrélation de Pearson
FAUX.
Il faut que les variances soient à peu près similaires.
-> Si elles ne le sont pas, il y a des calculs qui nous permettent de modifier la corrélation de Pearson pour avoir des données/corrélation qui fonctionnent
Qu’est-ce qu’une mesure de corrélation?
Indice du lien entre deux variables représentant au moins des niveaux (rang) ordonnés de la mesure
-> Il y a une augmentation de “moins” à “plus” d’une quantité avec les valeurs des deux variables
Qu’est-ce qu’une mesure d’association?
S’applique même si différentes valeurs de la variable ne représentent pas une diminution ou une augmentation ordonnée d’une certaine quantité
-> Ex: Aux États-Unis, l’association entre le sexe ou la race et les intentions de vote (républicains/démocrates)
Qu’est-ce que la dichotomie?
Variable pouvant prendre deux valeurs
- > P.e. Groupe expérimental/groupe témoin, réussite/échec, marié/non marié, etc
- > Il y a toujours une valeur qui ressemble à un genre d’intervalle/rapport
Les données dichotomiques ne respectent pas la distribution […] (l’inférence statistique est plus difficile)
Les données dichotomiques ne respectent pas la distribution normale (l’inférence statistique est plus difficile)
- > Peut prendre n’importe quelles valeurs (0,1), (1,2) (7,12) …
- > Généralement on choisi (0,1), car cela facilite les calculs
Quelle est la différence entre les inférence statistiques la corrélation bisérielle de point r pb
L’inférence statistique (tester les hypothèses) va être un peu plus compliqué avec des valeurs dichotomiques! On peut faire le Khi carrée
Pour la corrélation bisérielle de point, on peut utiliser des variables dichotomiques
Qu’est-ce que la corrélation bisérielle de point r pb
Un calcul entre une variable dichotomique et une variable continue
-> Le calcul et l’interprétation est la même qu’avec le test de Pearson, mais les tests d’hypothèses seront légèrement différents et peut présenter des difficultés d’inférence (test d’hypothèse)
Où s’utilise la corrélation bisérielle de point r pb?
S’utilise partout où les corrélations r de Pearson sont utilisées - p.e. régressions, analyses factorielles
r pb = […]
r pb = r
Qu’est-ce qu’on observe par rapport au diagramme de dispersion dans les cas de corrélation bisérielle de point (r pb)?
Notre variabilité peut seulement prendre 2 valeurs (Seulement 2 types de X).
-> Pas de variabilité sur l’axe des X, seulement sur l’axe des Y
VRAI ou FAUX
Il est impossible de mettre en place une droite dans le diagramme de dispersion d’une corrélation bisérielle de point
La droite du diagramme de dispersion d’une corrélation bisérielle de point passera par la moyenne des deux variables X et sera placer afin de réduire la variabilité de la droite de régression (minimiser la distance entre chaque point et la droite)
Dans le cas d’un diagramme de dispersion d’une corrélation bisérielle, la pente de la droite de régression est la […] entre les […]
Dans le cas d’un diagramme de dispersion d’une corrélation bisérielle, la pente de la droite de régression est la différence entre les groupes
-> (Pentes * variable) + ordonnée à l’origine [moyenne du 1er groupe]
Décrivez la création d’une droite de régression dans un diagramme de dispersion d’une corrélation bisérielle
1) Nous pouvons tracer une droite de régression entre X(dichotomie) et X
2) La droite de régression passe par les moyennes de chaque groupe X(dichotomie 1) = … , X (dichotomie 2) = …
3) Il y a une corrélation r = X.XXX entre les deux variables
4) Le signe négatif du r est arbitraire, car il dépend des valeurs utilisées pour la variable X (dichotomique)
5) Le ra = X.XX c’est-à-dire la variable X (dichotomique) explique XX% de la variance de la variable X (non dichotomique)
6) L’équation de régression est […]
Dans une équation de régression, l’ordonnée à l’origine - la constante b- est XXX, la moyenne de la variable (dichotomique 1 ou 2) car ce groupe a la valeur […]
Dans une équation de régression, l’ordonnée à l’origine - la constante b- est XXX, la moyenne de la variable (dichotomique 1 ou 2) car ce groupe a la valeur 0
La pente de la droite de régression - la constante a - représente une diminution de XX unité de … lorsque l’on passe de la catégorie X (variable dichotomique 1) à la catégorie X (variable dichotomique 2) - C’est la différence entre les […] des deux groupes
La pente de la droite de régression - la constante a - représente une diminution de XX unité de … lorsque l’on passe de la catégorie X (variable dichotomique 1) à la catégorie X (variable dichotomique 2) - C’est la différence entre les moyennes des deux groupes
Qu’est-ce que le r2 ajusté?
Ajusté pour la grandeur de l’échantillon
Il y a une relation importante entre rpb et […]
Il y a une relation importante entre rpb et t
-> où t est la valeur du test-t de la différence entre les moyennes
Si on connaît la valeur du test t, on peut faire une corrélation r pb. Quand j’ai une corrélation r pb, je peux la convertir en t et vice-versa
La difficulté avec les variables dichotomiques, c’est les […]!
La difficulté avec les variables dichotomiques, c’est les hypothèses inférentielles
Pourquoi utilise-t-on la corrélation bisérielle de point au lieu du test t des moyennes de deux variables indépendantes?
Le test T nous dit seulement la différence entre les moyennes. Une différence de moyenne est difficile à visualiser seule comme effet. La corrélation est beaucoup plus facile à comprendre pour nous et à visualiser
-> MAIS il est facile d’utiliser un test t pour tester la signification de r pb. Il s’agit du même test que pour le r de Pearson
Quel est le calcul du degré de liberté pour le test de signification de r pb?
N - 2
Pour la corrélation bisérielle de point, nous pourrions calculer une taille d’effet à partir de quoi
Pour la corrélation bisérielle de point, nous pourrions calculer une taille d’effet à partir des différences de moyennes entre les deux groupes
La valeur de taille d’effet de la corrélation bisérielle peut aussi être calculée à partir de quoi?
La valeur de taille d’effet de la corrélation bisérielle peut aussi être calculée à partir de la valeur du coefficient de corrélation rpb car il existe une relation mathématique directe entre t et rpb
Qu’est-ce que la corrélation bisérielle de points?
C’est une corrélation de Pearson avec une valeur dichotomique
-> Pour tester si c’est significatif, on fait simplement un test-t
Qu’est-ce que le coefficient de phi (o/o de Cramér)?
Corrélation entre deux variables dichotomiques
-> Ex: Relation entre le sexe (homme/femme) et l’emploi (au travail/sans-emploi)
Le coefficient de phi est en fait un simple […], il se calcule de la même façon
Le coefficient de phi est en fait un simple r, il se calcule de la même façon
Qu’est-ce qui est différent entre une corrélation typique et un coefficient de phi?
Lorsqu’il s’agit de o/o (de Cramér), le test de signification est différent (c’est pourquoi la statistique porte un nom différent du r de Pearson) – il s’agit d’un X2 (khi-carré) plutôt que d’un test-t
Quels sont les hypothèses du phi de Cramér?
H0 : o/o (de Cramér) = 0
H 1: o/o (de Cramér) =/= 0
Le test du phi de Cramér suit une distribution […] avec 1 degré de liberté (X2 = N * o/o2)
Le test du phi de Cramér suit une distribution khi carré avec 1 degré de liberté (X2 = N * o/o2)
Le test de phi de Cramér est le même […] que pour les tables de contingence
Le test de phi de Cramér est le même khi carré que pour les tables de contingence
Qu’est-ce que le tableau de contingence et le khi carré permettent?
Tableau de contingence: De nous faire une idée visuelle de nos variable
Khi-carré: De voir si mes 2 variables dichotomiques sont liées
Le phi de Cramér est une corrélation de […] pour des tables […] et des corrélations […] (multidimensionnelles)
Le phi de Cramér est une corrélation de Pearson pour des tables multinomiales (plusieurs variables), pour des corrélation canoniques (multidimensionnelles)
-> Très rarement utilisé
La corrélation bisérielle et tétrachorique est différente de la corrélation de […]
-> Elles sont […] utilisées
La corrélation bisérielle et tétrachorique est différente de la corrélation de Pearson
-> Elles sont rarement utilisées
Le coefficient de corrélation bisérielle/tétrachorique fonctionne avec des variables […] lorsque celles-ci sont dérivées de variables qui respectent une distribution […]
Le coefficient de corrélation bisérielle/tétrachorique fonctionne avec des variables dichotomiques lorsque celles-ci sont dérivées de variables qui respectent une distribution normale
-> Ex: En utilisant une variable continue pour créer des catégories - bas, haut)
Le test associé aux coefficients de corrélation bisérielle et tétrachorique est généralement […] puissant que les tests des corrélations bisérielles en point (r pb) et phi de Cramér
Le test associé aux coefficients de corrélation bisérielle et tétrachorique est généralement plus puissant que les tests des corrélations bisérielles en point (r pb) et phi de Cramér
En quoi consiste les données rangées ou données en rang ou données ordinales (rank-ordre data)?
Associer un rang à des données qui sont en ordre croissant
- > La plus petite valeur a le rang 1
- > La plus grande valeur a le rang n (nombre d’observation)
- > Si deux (ou plusieurs) valeurs ont le même rang, on leur donne chacune le rang moyen
Donnez un exemple de données rangées.
X: 5 8 9 12 12 15
Rangs: 1 2 3 4.5 4.5 6
Le rho de Spearman repose sur le même principe que pour le r de […]
Le rho de Spearman repose sur le même principe que pour le r de Pearson
Le test-t ou le khi carré ne fonctionne pas (!) pour des données […] - surtout pour N < […]
Le test-t ou le khi carré ne fonctionne pas (!) pour des données […] - surtout pour N < 30
Le tau de […] (t) est un indice similaire au rho de Spearman, mais il est basé sur le nombre « d’inversions de rang » lorsque l’on range les données en considérant deux variables
Le tau de Kendal (t) est un indice similaire au rho de Spearman, mais il est basé sur le nombre « d’inversions de rang » lorsque l’on range les données en considérant deux variables
Le rho de Spearman (r s) et le tau de Kendal (t):
Des calculs permettent des estimés « […] » (et conservateur) de ces coefficients et l’obtention d’un niveau de signification
Des calculs permettent des estimés « non paramétriques » (et conservateur) de ces coefficients et l’obtention d’un niveau de signification
Le rho de Spearman (r s) et le tau de Kendal (t):
Ces tests sont […] puissants que les autres tests pour les corrélations
Le rho de Spearman (r s) et le tau de Kendal (t):
Ces tests sont moins puissants que les autres tests pour les corrélations
Le rho de Spearman (r s) et le tau de Kendal (t):
Les calculs s’obtiennent avec la commande […] de SPSS
Le rho de Spearman (r s) et le tau de Kendal (t):
Les calculs s’obtiennent avec la commande NONPAR CORR de SPSS
Le rho de Spearman (r s) et le tau de Kendal (t):
Du moment qu’on a un échantillon le moindrement […] , ça ne change pas grand chose!
Le rho de Spearman (r s) et le tau de Kendal (t):
Du moment qu’on a un échantillon le moindrement grand, ça ne change pas grand chose!
Le coefficient de concordance de Kendall (W) permet de calculer des accords […] lorsqu’il y a plus de deux […]
Le coefficient de concordance de Kendall (W) permet de calculer des accords interjuges lorsqu’il y a plus de deux juges
Le coefficient de concordance de Kendall (W) est […] courante et puissante. Elle s’obtient par la commande SPSS […]
Le coefficient de concordance de Kendall (W) est peu courante et puissante. Elle s’obtient par la commande SPSS CROSSTAB
VRAI ou FAUX
Les variables dichotomiques peuvent être utilisées dans le calcul des coefficients de corrélation
VRAI
Les variables dichotomiques peuvent être incluses dans les … et dans la plupart des analyses […] et des analyses en composantes principales
Les variables dichotomiques peuvent être incluses dans les régressions (simples ou multiples) et dans la plupart des analyses factorielles et des analyses en composantes principales
Lorsque la relation étudiée porte sur deux variables
dichotomiques, un test […] remplace le test-t de
signification, la corrélation s’appelle alors un coefficient
[…]
Lorsque la relation étudiée porte sur deux variables
dichotomiques, un test khi carré remplace le test-t de
signification, la corrélation s’appelle alors un coefficient
phi de Cramér
Le calcul des corrélations avec des données rangées (rank order) est […] problématique, car elle fait appel à des approches […] conservatrices et nettement […] puissantes
Le calcul des corrélations avec des données rangées (rank order) est plus problématique, car elle fait appel à des approches non paramétriques conservatrices et nettement moins puissantes
IMPORTANT
Les tests de corrélation sont les mêmes que la corrélation de […], du moment qu’on a un échantillon un peu […].
-> Seulement le test […] change
IMPORTANT
Les tests de corrélation sont les mêmes que la corrélation de Pearson, du moment qu’on a un échantillon un peu grand.
-> Seulement le test inférentiel change