Séance 13 : La corrélation Flashcards
Quel est le point commun entre les tests effectuées jusqu’à présent?
Nous nous intéressons toujours aux différences de moyennes. On manipule toujours une variable indépendante et on regarde l’effet sur la variable dépendante.
Sur quoi on va s’attarder à partir de maintenant (corrélation et régression)?
Sur les RELATIONS qui peuvent exister entre les variables :
- Observation du lien entre 2 phénomènes (aucune manipulation expérimentale -> pas de manipulation de la VI requise (parfois m pas de participants))
- Ne permet pas d’établir de relation causale (on ne peut pas dire que x a causé y ou vice versa… seulement si relation entre les 2)
Exemples de variables sans lien causal dont on peut observer le lien entre
ex: comparer réponses entre choix de réponses et développement
ex: comparer la taille et le poids (pas un qui cause l’autre, sont réciproques, mais liés)
Qu’est-ce que la corrélation?
Statistique qui permet d’estimer le degré de
relation entre 2 variables (généralement mesurée sur les
mêmes individus*).
- Pas toujours les mêmes individus (p. ex., relation entre la prise de poids
chez la mère pendant la grossesse et le poids du bébé à la naissance).
Que sont les deux caractéristiques de la relation qu’on estime?
Estime la direction (ou sens) (positive ou négative) et la force (faible, modérée, forte) de la relation
entre 2 variables.
Par quoi on peut remplacer les termes VI et VD?
par « variables corrélées » ou
« corrélats », ce qui diminue le risque
d’interprétations erronées
Qu’est-ce que le postulat de causalité?
Pour déterminer qu’un phénomène en cause un
autre (lien causal), il faut respecter trois conditions
logiques:
- Variable X et variable Y doivent être interreliées (condition de relation).
- La cause doit précéder l’effet (condition
d’antécédence temporelle).
3.La relation entre X et Y ne doit pas être
expliquée par une troisième variable confondante (AUSSI APPELÉE MÉDIATRICE)
(condition d’absence d’explications alternatives).
=> je dois m’assurer que la seule chose qui change soit le traitement (ex: notes entre lingu et psuy… seule diff doit être le programme d’étude … RARE)
Donne 3 exemples de situations où une variable médiatrice intervient (x peut pas être expliqué à cause de y et vice versa)
ex: lien entre vente
de crèmes glacées
et noyades…
variable médiatrice = température (qd il fait beau, gens fréquentent plus les piscines et la plage et mangent + de crème glacée)
ex: lien entre nbr bars et d’églises
var. méd : nbr d’habitants
ex: lien entre nbr nids de cigognes et
le nbr de naissances dans une ville
var.med: milieu de vie (ds milieux ruraux, nbr naissance plus élevés, mais aussi plus nature donc plus cigognes)
Lesquelles conditions sont remplies par la corrélation? Cela veut dire quoi?
La seule condition remplie par la
corrélation est la condition 1
- pas respectée, car desfois diff a voir laquelle vient avant (ex: motivation et notes scolaires…) est-ce sa motivation influence sa performance ou sa performance sa motivation?
- pas toujours respectée non plus (voir autre question des exemples)
Qu’exprime la corrélation?
La corrélation exprime de façon quantitative la force d’une
relation linéaire entre deux variables mesurées sur un
même groupe d’individus.
La corrélation est une mesure descriptive ou inférentielle?
Les deux, la corrélation est d’abord une mesure descriptive (nous informe à propos de la relation dans l’échantillon
seulement (direction et force))., mais
elle peut également être utilisée comme statistique
inférentielle (lorsqu’on veut savoir est-ce que cette corrélation reflète une relation réelle
dans la population ou si elle provient du hasard ? => est-elle généralisable)
Exemples de corrélations.
Lien entre la taille et la pointure de souliers (monte, monte)
Lien entre le nombre d’heures d’étude et le score à l’examen (monte, monte)
Comment représente-t-on le lien entre 2 variables?
La façon dont 2 variables sont reliées entre elles peut être représentée à l’aide d’un diagramme de
dispersion (aussi appelé nuage de points; scatterplot en anglais).
Le diagramme est composé des
variables X et Y.
Chaque individu est représenté par
un point dont la position cartésienne
est représentée par (Xi, Yi).
Quand y a t’il corrélation parfaite?
Quand tous les points sont alignés sur une droite
Qu’est-ce que la corrélation sur le nuage?
degré de rapprochement entre données et droite (plus regroupées près de la droite, plus la corrélation est élevée)
Quel est le problème quand on compare la grosseur du cerveau et le QI?
Il y a une variable médiatrice : la taille du corps. Il faut la contrôler et en tenir compte. Les animaux les plus intelligents sont ceux qui ont une grosse tête p/r à leur corps (dauphin, requin)
V ou F : Il n’existe que la relation linéaire.
Il existe plusieurs types de relations entre les variables
et on peut les identifier par la forme du diagramme de dispersion.
Par contre, La corrélation permet de détecter seulement les
relations linéaires (c’est un de ses postulats).
Donne 3 types de relations.
Linéaire : droite, 0 changement de direction
Quadratique :1 seul changement de direction, monte puis redescend… ou inverse
Cubique: W ou N, 2 changements de direction
Donne un exemple de relation quadratique
Le niveau de stress et la performance.
Pas assez : Ennui
Juste assez : performance
trop : épuisement,
Qu’est-ce qu’une corrélation positive?
Les valeurs les plus élevées de X sont associées aux
valeurs les plus élevées de Y. « Quand X augmente, Y augmente.
Qu’est-ce qu’une corrélation négative?
Les valeurs les plus élevées de X sont associées aux
valeurs les moins élevées de Y. « Quand X augmente, Y diminue
V ou F : Plus une relation est forte, plus les points seront groupés
suivant une relation linéaire.
Vrai
Qu’est-ce qu’une corrélation nulle? Donne un ex.
Aucune corrélation entre les deux variables. Deux valeurs similaires
sur X peuvent être associées à deux valeurs opposées sur Y (nuage de points épars)
ex: entre pointure
de souliers et score
à l’examen
Qu’est-ce qu’une corrélation parfaite? Donne un ex.
Il y a une relation parfaitement linéaire (points parfaitement alignés) entre les deux variables. Un
changement sur X est associé à un changement proportionnel sur Y (si j’augmente de 3 sur x, j’augmente de 3 sur y).
ex: relation entre nbr d’années depuis naissance
et âge… mais pas mal le m concept
Qu’est-ce que le coefficient de corrélation?
Est une estimation de la direction et de la force de la
relation linéaire entre 2 variables
Est une valeur qui varie entre -1 et 1.
Qu’indique le signe du CC?
signe indique la direction de la relation:
• (+) = relation positive;
• (-) = relation négative
Qu’indice la valeur numérique du CC?
La valeur numérique indique la force de la relation:
• -1 et 1 = relation linéaire parfaite;
• 0 = absence de relation linéaire
V ou F : Le CC est calculé toujours de la même façon.
Faux,
Le coefficient de corrélation est calculé différemment selon l’échelle de mesure:
• Échelles intervalle ou ratio = r de Pearson;
- Échelle ordinale = r de Spearman ou tau de Kendall;
- Échelle nominale = Phi de Cramer.
Quel est le CC utilisé et ses caractéristiques?
Le r de Pearson. Le plus simple à interpréter (et le plus puissant: permet plus facilement de déterminer une diff significative et donc un lien entre les variables)
Autres = utilisées quand on respecte pas le postulat
Qu’est-ce que le CC p/r à la covariance?
r
Coefficient de corrélation: Mesure standardisée de la
covariance entre deux variables.
Covariance: Dans quelle mesure les variations d’une
variable sont associées aux variations de l’autre
variable.
Comment vérifier la covariance dans un nuage de points?
Il faut avoir un patron constant.
Pour vérifier, prendre 2 paires de points et regarder s,Ils suivent la m tendance (ex: 1 monte x, autre aussi et 1 monte y, autre aussi (x2)) + regarder la FORME du nuage de points
Diff entre covariance et variance?
Formule de covariance permet voir a quel point les variables varient ensemble (ex: score à l’examen et heures d’étude), mais variance juste pour un échantillon (ex; variabilité des scores des étudiants à l’examen)
Comment on calcule le r?
Covariance de X et de Y divisée par le produit de leurs écarts-types respectifs.
r = Degré auquel les deux variables varient ensemble /
Degré auquel les deux variables varient séparément
Comment on interprète r?
On dit sa direction et sa force (avec le barème ou le coefficient de détermination r^2
ex: relation linéaire positive forte significative
Quel est la barème de Cohen?
0,50 et + : Forte
0,30 à 0,49 : Moyenne
0,10 à 0,29 : Faible
Comment on interprète le coefficient de détermination r^2?
% de variance commune entre les 2 variables (pour
corrélation); => représente la zone de chevauchement
Ex: Exemple: Vous désirez connaître la force de la relation
entre la taille (X) et le poids (Y) chez les athlètes.
• r = .78
• r2 = .61
• Il y a 61% de variance commune entre la taille et le poids;
Quand utilise t’on r et quand r^2 ?
si trouver la force selon barème = r (de corrélation)
si trouver % variance partagée = r^2 (de détermination)
Quels sont les postulats de la corrélation (et de la régression)?
- Relation linéaire entre X et Y;
• Moins de chance d’observer une corrélation si la relation
n’est pas linéaire
.
2. Variables sur une échelle d’intervalles ou de ratio;
- Les deux variables doivent se distribuer normalement;
- Homogénéité des variances;
- Taille de l’échantillon: Les petits échantillons sont moins
variables et, donc, tendent à sous-estimer la corrélation
réelle. Les barèmes varient, mais plusieurs auteurs
suggèrent un n minimal de 20.
Comment on examine les postulats?
Avec le diagramme de dispersion.
- Homogénéité : les points doivent suivre une même tendance tout le long
- Linéarité : suit une ligne, mouvement du haut vers le bas (ou vice versa), une seule direction
- Normalité : doivent être à même distance de la droite (symétrie)
V ou F : les données n’influencent pas la corrélation.
Faux, Les résultats extrêmes influencent fortement la
variabilité et, conséquemment, le coefficient de
corrélation.
Quels sont les facteurs influencant la corrélation?
- données extrêmes
2. étendue des données
Comment l’étendue influence la corrélation?
+ l’étendue est petite, - les données tendent à varier, donc plus la corrélation est petite
+étendue grand
+corrélation grande
Donc, que permet l’inspection visuelle du diagramme de dispersion?
- Vérifier si les postulats sont respectés (homogénéité, normalité, linéarité);
- Détecter la présence de données extrêmes;
- Évaluer l’étendue des données.
=> On ne peut pas juste se fier au coefficient de corrélation.
Que permet le test inférentiel sur la corrélation?
permet de
déterminer si ρ (rhô; coefficient de corrélation dans la
population) est:
- Différent de 0 (bilatéral); => si c’est une linéaire significative ou non
- Supérieur ou inférieur à 0 (unilatéral).
Quelle distribution d’échantillonnage utilise-t-on?
Utilisation de la distribution d’échantillonnage du t de
Student avec n – 2 dl
V ou F : Le test est le même que pour test t sur éch.
Faux, t = r x racine(n-2) / racine(1-r^2)
Étape 1 à la main
Identifier les hypothèses statistiques (H0 et H1)
UNILATÉRAL
H0 : ρ ≤ 0
(il n’y a pas de relation linéaire positive entre les
variables dans la population)
H1 : ρ > 0
(il y a une relation linéaire positive entre les 2 variables
dans la population)
BILATÉRAL
- H0 : ρ = 0 (il n’y a pas de relation linéaire dans la pop)
- H1 : ρ ≠ 0 (il y a une relation linéaire dans la pop)
Étape 2 à la main
alpha uni ou bi
Étape 3 à la main
a. choix du test : test de corrélation de pearson
b. conditions d’utilisation:
- n suffisamment grand (>20)
- 2 variables sur échelle intervalle ou ratio
- relation linéaire entre les 2 variables
- homogénéité des variances
- variables distribuées normalement
c) distribution d’échantillonnage du T de student avec n-2 dl
d) calculs : tobs(8) = donné
Étape 4 à la main
Tcrit : dans la table du T avec alpha et dl
Décision statistique
tobs(18)= 3,90 > t crit(18) = 2,55
*faire attention avec signes
Étape 5 à la main
Conclusion selon le contexte
On conclut qu’il y a une relation linéaire positive
significative (tout ça) entre le niveau d’anxiété et le montant
dépensé en cadeaux de Noël.
Dans un texte scientifique, on pourrait également
décrire la force de la relation: Une corrélation de .677
est typiquement décrite comme forte, et on peut dire
aussi qu’il y a 46% de variance commune entre le
montant dépensé pour Noël et le score d’anxiété.
Première chose à regarder dans SPSS
Si sig sorti est unilatéral ou bilateral
Que faire si la première chose à regarder diffère de l’hypothèse?
Si l’hypothèse est unilatérale et le test
SPSS est bilatéral, on divise le p par 2
Si l’hypothèse est bilatérale et le test SPSS
est unilatéral, on multiplie le p par 2
Étape 4 avec spss
r(18) = 0,001 < alpha = 0,01. On rejette H0.
- on rapporte r et sur papier t
- vérifier si différence dans m direction que hypothèse
seule diff sauf calcul spss
Que faire quand on demande le pourcentage de variance commune à partir de sortie SPSS ?
Mettre corrélation de pearson à la 2 et faire x100