revisions cours Flashcards
quelles sont les echelles de variables utilisées pour la corrélation
discrètes ou continues
quels sont les devis utilisés pour la corrélation
Devis corrélationnel/observationnel: aucune manipulation expérimentale (mais on peut l’utiliser en devis expérimental)
ex:On prend une photo de ce qui se passe, sans intervenir
En présence d’une corrélation, quand le score sur une variable s’écarte de la moyenne, on s’attend…
..à ce que le score sur une autre variable s’écarte de la même façon (ou à peu près) de la moyenne
Relation non linéaire : calcul de corrélation?
(calcul de corrélation non pertinent dans ce cas)
Il y a quand même une relation (qui peut être très forte)
Lien stress (X)-performance (Y)
Mais la relation n’est pas linéaire
Différents coefficients en fonction de l’échelle de mesure et de la forme de la distribution des variables ( a connaitre par coeur)
Échelle d’intervalle ou de ratio : r de Pearson
Aussi pour échelle ordinale surclassée (*), lorsque c’est pertinent
Lorsque la distribution est normale !
Sinon, envisager le rhô de Spearman
(corrélation non-paramétrique)
Échelle ordinale : rhô de Spearman (rs), tau-b de Kendall
Le r de Pearson est parfois utilisé si l’échelle a 5 points et plus ET lorsque la forme de la distribution s’approche d’une courbe normale (*)
Échelle nominale et intervalle ou ratio : corrélation bisérielle de point, corrélation bisérielle
conditions d’utilisations du r de pearson
1) Données mesurées sur une échelle d’intervalle ou de ratio
2) Normalité des distributions (pour chaque variable)
Si les distributions ne sont pas normales, on peut utiliser la corrélation de Spearman,rs (rhô)
-Technique non-paramétrique
-Pour variables mesurées sur une échelle ordinale
3) Exclure la présence d’une relation non-linéaire (nuage de points)
4) Relation normale bivariée (idéalement, distribution en « ballon de football » sur le
nuage de points, soit deux distributions normales)
5) Homogénéité de la variance sur le continuum de l’échelle de chaque variable (pas de forme d’entonnoir sur le nuage de points)
comment interpréeter la force de la relation du r de pearson
Deux façons d’interpréter la valeur du coefficient :
-Le coefficient de corrélation lui-même (voir barèmes)
-% de variance commune (r2 ou R2)
qu’est-ce que le coreff de détermination
R2 = Coefficient de détermination
% de variance commune entre les 2 variables
H0 prédit l’absence:
-de relations entre variables
-de différences de moyennes
-de déviation à la loi normale
Conditions d’application des tests paramétriques
1) les variables doivent être à peu près normalement distribuées dans la population;
2) les variances dans les différentes populations doivent être homogènes (à peu près similaires);
3) il ne doit pas y avoir de valeurs extrêmes (définies de manière probabiliste) qui ont un impact trop important sur la tendance centrale.
Facteurs influençant la corrélation
1) Les données extrêmes
-La corrélation tient compte de toutes les données
-La présence de données extrêmes tend à faire diminuer le coefficient de corrélation
2)L’étendue des données
-Plus l’étendue est petite, moins les données tendent à varier
-La restriction de l’étendue tend à diminuer la corrélation
dans la régression linéaire La qualité de la prédiction repose sur..
… la force de la relation linéaire entre les deux variables
la notion de résidu /erreur de prédiction
en fonction de la carte qui est crée cela devrait faire 60 mais selon les données
les vrais scores ont un equart avec la prédiction
la caratéristique de la régression c’est qu’elle rapproche le plus possible les résidut de ce qui était prédit
les Conditions d’application de la régression
1) n suffisant
n > = 50 + 8.m (un calcul plus précis est possible avec G*Power)
m = nombre de variables prédictrices
2) La variable prédite (Y) doit être distribuée de manière normale (aussi: distribution normale des résidus)
3) la relation entre la variable prédite et le (ou les) prédicteur(s) doit être linéaire (exclure rel. non linéaire)
4) Idéalement, nuage de points en forme de ballon de foot
5) Variance homogène (absence d’effet d’entonnoir)
6) Normalité des résidus (erreurs) du modèle
N’oubliez pas d’examiner la présence possible de données extrêmes