Chapitre 4 Flashcards
Fidélité, définition = ?
S’applique à quoi?
Fidélité concerne la précision de notre mesure, ou dit
autrement, le niveau d’erreur de mesure qu’elle génère. (Comme la définition de la fidélité à la base est qu’un instrument « devrait donner les mêmes résultats d’une administration à l’autre », il s’agit d’une mesure « classique » de la fidélité.)
Bien que l’affirmation « un test fiable » est commune, cette
qualité en fait ne s’applique pas au test en tant que tel, mais
s’applique aux scores qu’ils génèrent.
La fidélité n’est pas un concept dichotomique (i.e., fiable vs non fiable) : tout est une question de degré. On veut savoir à
quel point les variations des scores – entre différents individus, ou entre différents moments de mesure – résultent de différences réelles dans le construit qui nous intéresse ou plutôt d’imprécisions (erreurs) de l’instrument de mesure qu’on utilise
* Autrement dit, on veut savoir à quel point le score « vrai »
est estimé avec justesse.
théorie du score vrai
Score observé = score vrai + l’erreur de mesure
Qu’on le veuille ou non, il y a toujours de l’erreur de mesure dans…
dans tous les instruments !!!
Deux grands types d’erreurs de mesure
1) Nom
2) Définition
3) Cause
4) Comment les minimiser / évaluer
PAGE 9
1) Aléatoire
DÉFINITION
- Fluctuations statistiques NON REPRODUCTIBLES, toujours présentes pour tous les instruments.
- Autant au-dessus qu’en dessous de la moyenne.
- Distribuées normalement.
CAUSE
- Variation dans l’échantillonnage
COMMENT LES MINIMISER/ÉVALUER
- Plus grands échantillons
- Plus de moments de mesures.
- Peuvent être plus facilement estimées / contrôlées statistiquement.
1) Systémique ou biais
DÉFINITION
- Fluctuation CONSTANTES et REPRODUCTIBLES, qui sont toujours dans la même direction. Pas dans tous les instruments.
- Surestimation ou sous-estimation constante des paramètres (ex la moyenne)
- Pas distribuées normalement.
CAUSES
- Mauvaise utilisation de l’instrument (pas la faute des auteurs)
- Conditions d’administration inadéquates.
- Imperfections de l’instrument. (donc les auteurs ont mal conçu l’instrument)
COMMENT LES MINIMISER/ÉVALUER
-Difficile à détecter, souvent ne sont pas connues.
- Plus difficile à quantifier statistiquement.
4 sources d’erreurs de mesure ainsi que leur indice de fidélité utilisé pour mesurer l’erreur
) Source d’erreur de mesure
A) Type d’instrument sujet à ce type d’erreur
B) Indice de fidélité utilisé pour mesurer l’erreur
1) Erreur d’échantillonnage de contenu (plus conceptuel)
A) Instruments pour lesquels des résultats cohérents au sens large sont souhaités.
B) Coefficient de fidélité des formes parallèles (ou coefficient de congruence)
1) Erreur d’échantillonnage dans le temps
A) Instruments de mesure de traits ou comportements relativement stables
B) Coefficient de fidélité test-retest (ou de stabilité temporelle)
1) Incohérence interne, ou inter-items (corrélation entre les items, plus empirique)
A) Instruments qui requièrent une grande cohérence interne ou inter-item
B)
- Coefficient de fidélité moitié-moitié
- Coefficient de cohérence interne
1) Incohérence inter-informateurs
A) Instruments qui impliquent un degré relativement élevé de subjectivité
B) Coefficient de fidélité inter-juge (ou accord inter-juges)
Fidélité des formes parallèles
- On développe deux formes équivalentes du même instrument et on estime la corrélation des scores entre les deux formes pour les mêmes individus
- Instruments tout à fait similaires conceptuellement, mais avec des items légèrement différents
- La question de l’échantillonnage de contenu est cruciale pour pouvoir interpréter avec confiance cette forme de fidélité
- On ne peut pas simplement choisir des items au hasard dans une grande banque d’items : il faut faire une sélection quasi-aléatoire
- Tous les domaines ou sous-domaines spécifiques du construit doivent être représentés proportionnellement
- Comme les deux formes parallèles sont supposées mesurer le construit de la même façon, l’objectif est donc d’estimer le degré d’erreur dans le contenu
- Après collecte de données: Corrélation élevée suggère bonne précision, ou dit autrement, peu d’erreurs de mesure
Fidélité test-retest
- Certains instruments prétendent mesurer des construits relativement stables dans le temps (e.g., traits de personnalité)
- Si on évalue les mêmes individus avec le même instrument à deux reprises dans le temps, est-ce qu’ils obtiennent les mêmes résultats (scores) ?
- Pour l’estimer, l’intervalle de temps doit être assez court (environ 2 semaines à 1 mois)
- Après collecte de données: Une corrélation élevée suggère bonne précision, peu d’erreurs de mesure
- Pas vraiment de « coefficient minimum », mais si la corrélation est forte (au moins 0,70), l’instrument est considéré fiable
Mais attention: s’il y a un écart entre les résultats (corrélation
faible), il est parfois difficile de déterminer les raisons
* Intervalle de temps trop long? changement réel chez les
individus? quantité d’erreurs de mesure? (exemple, évaluation de l’humeur dépressive, on s’attend à ce qu’il y ait des changement réels et rapides. Donc, ce n’est pas nécessairement une erreur de mesure, mais plutôt que la mesure en elle-même change)
Cohérence interne
- Lorsque les chercheurs. créent des échelles, ils tentent de
regrouper des items qui forment un tout cohérent, autant sur le (a) plan conceptuel que sur le (b) plan empirique - Autrement dit, il ne suffit pas que des experts.es suggèrent qu’un groupe d’items mesurent bien un construit, mais il faut aussi que les items soient significativement corrélés entre eux
- Avec des faibles corrélations entre les items, on peut se
demander s’ils mesurent vraiment le même construit - Il y a deux stratégies souvent utilisées pour évaluer la cohérence interne: (1) coefficient de fidélité moitié-moitié et (2) coefficient de cohérence interne
Pour le coefficient moitié-moitié
les chercheurs divisent en deux les items d’une échelle et on estime ensuite les corrélations entre ces deux moitiés
* Encore une fois, l’échantillonnage de contenu est très
important, il faut une sélection quasi-aléatoire des items
* Après collecte de données: Une corrélation élevée entre les deux moitiés indique bonne fidélité, peu d’erreurs de mesure
- Problème méthodologique : avec moins d’items, les corrélations vont toujours être moins fortes, nonobstant le niveau de fidélité
- « Prophétie de Spearman »: plus il y a d’items dans une
échelle, plus sa fidélité est élevée - Avec des échelles brèves : on peut appliquer la formule de la prophétie de Spearman-Brown pour déterminer quelle serait la corrélation avec plus d’items
Prophétie de ______ ET la prophétie de ________
- « Prophétie de Spearman »: plus il y a d’items dans une
échelle, plus sa fidélité est élevée - Avec des échelles brèves : on peut appliquer la formule de la prophétie de Spearman-Brown pour déterminer quelle serait la corrélation avec plus d’items
Coefficient de cohérence interne
Pour le coefficient de cohérence interne, les
chercheurs estiment l’homogénéité de tous les items
d’une échelle
* Il s’agit d’un estimé statistique quantifiant l’ensemble des
inter-corrélations entre tous les items d’une échelle
* Est-ce que les items d’une échelle forment un tout cohérent sur le plan empirique, sont assez fortement corrélés – et donc, génèrent peu d’erreurs de mesure
* Deux indices très utilisés pour estimer la cohérence interne (alpha de Cronbach et Kuder-Richardson-20) et un plus récent (Omega de McDonald)
DU WEB : La méthode d’estimation de la fidélité la plus fréquemment utilisée en psychométrie est celle de la cohérence interne, aussi appelée homogénéité. Cette méthode consiste à évaluer le degré de cohésion des items qui composent un instrument psychométrique (ou chacune de ses échelles), lesquels devraient être étroitement liés. L’indice de fidélité s’exprime alors par la mesure de cette cohérence entre les items. Parce qu’elle ne requiert qu’une seule passation de l’instrument, cette mesure ne tient pas compte de la stabilité temporelle. Elle implique plutôt de vérifier la corrélation entre des scores composites obtenus au sein d’un même instrument selon deux moyens : la corrélation des scores obtenus à deux moitiés de l’instrument (méthode de bissection) et la corrélation des scores obtenus entre l’ensemble des items de l’instrument (méthode des covariances).
- Deux indices très utilisés pour estimer la cohérence interne
(alpha de Cronbach et Kuder-Richardson-20) et un plus récent (Omega de McDonald)
Alpha de Cronbach
1) Pour quel type d’item?
2) Est-ce pour des items qui mesures la même variable latente? Quel est leur lien avec la variable latente?
3) Statistiquement parlant, le coefficient α est l’équivalent de…
1) Pour les items continus (Donc pas pour les items dichotomiques comme Vrai/Faux, Oui/Non). La alpha de Cronback résume les inter-corrélations.
2) On assume (mais ne teste pas) que les items mesurent une même variable latente. On assume aussi que tous les items sont reliés de la même façon à la variable latente (aka, tau équivalent)
3) Statistiquement parlant, le coefficient α est l’équivalent de la moyenne de toutes les moitié-moitié possibles (toutes les
combinaisons possibles)
D’un autre côté, si les indices ne sont pas très élevés pour des échelles avec peu d’items – par exemple α = 0,50 pour une échelle à 2 ou 3 items – cela ne signifie pas de facto un
problème de précision
* C’est attendu (i.e., « Prophétie de Spearman »)
* On peut alors appliquer la transformation de Spearman-Brown pour connaitre la fidélité prédite de l’échelle si elle avait davantage d’items
Kuder-Richardson-20 (KR-20)
Un cas spécial du alpha de Cronbach pour les items
dichotomiques
* Comme pour alpha, lorsqu’on utilise KR-20, on assume (mais ne teste pas) que les items mesurent une même variable latente
* On assume aussi que le pourcentage de réponses correctes est le même pour tous les items
* Il existe une équation plus simple (KR-21)
Omega de McDonald
- Contrairement à alpha et KR-20, avec le Omega on teste
explicitement que les items mesurent une même variable
latente en utilisant l’analyse factorielle - Le postulat irréaliste que tous les items sont reliés de la même façon à la variable latente n’a pas besoin d’être respecté – les saturations factorielles peuvent être différentes
- Omega à tendance à procurer un estimé de la fidélité d’une échelle plus près de la réalité que le alpha ou le KR-20
- Alpha est un bon estimé de la fidélité seulement lorsque tous les items sont vraiment tau équivalents