Cours 4 Flashcards
Qu’est-ce que la fidélité?
Fidélité concerne la précision de notre mesure, ou dit autrement, le niveau d’erreur de mesure qu’elle génère
Vrai ou faux
Il est possible de qualifier un test de fiable.
Faux
La fiabilité s’applique aux scores qu’ils génèrent, car affirmer qu’un test est fiable sous-entend que la fidélité a été établie de façon permanente, pour toutes les utilisations, avec tous les utilisateurs.trices
Vrai ou faux
La fidélité est un concept dichotomique (fiable ou non).
Faux
Tout est une question de degré (pas dichotomique)
Expliquer cette affirmation :
La fidélité est cruciale en évaluation psychoéducative
Sur le plan clinique, avant de prendre des décisions importantes, on veut savoir à quel point les variations des scores résultent de différences réelles dans le construit qui nous intéresse ou plutôt d’imprécisions (erreurs) de l’instrument de mesure qu’on utilise. Autrement dit, on veut savoir à quel point le score «vrai» est estimé avec justesse
*peut impacter l’avenir d’une personne
Vrai ou faux
Qu’on le veuille ou non, il y a toujours de l’erreur de mesure dans tous les instruments
Vrai
Cependant, les chercheurs.euses tentent de construire des instruments qui vont la limiter le plus possible. Les praticiens.nes doivent bien connaître la fidélité des instruments qu’ils utilisent, pour faire une interprétation rigoureuse et prudente des scores
Qu’est-ce que la théorie du score vrai?
Score observé = score vrai + erreur de mesure
Qu’est-ce qu’une erreur aléatoire?
- Fluctuations statistiques non reproductibles, toujours présentes pour tous les instruments
- Autant au-dessus qu’en dessous de la moyenne
- Distribuées normalement
- Causé par la variation dans l’échantillonnage
Qu’est-ce que l’erreur systématique (ou biais)?
- Fluctuations constantes et reproductibles, qui sont toujours dans la même direction. Pas dans tous les instruments
- Surestimation ou sous-estimation constante des paramètres
- Pas distribuées normalement
- Causé par une mauvaise utilisation de l’instrument, des conditions d’administration inadéquates et les des imperfections de l’instrument
Comment pouvons-nous minimiser/évaluer les 2 types d’erreurs?
Aléatoires :
- plus grands échantillons
- plus de moments de mesure
- peuvent être plus facilement estimées/contrôlées statistiquement
Systématiques :
- difficiles à détecter, souvent ne sont pas connues
- plus difficile à quantifier statistiquement
Relier les 4 sources d’erreur de mesure avec leur type d’instruments sujets à chaque source d’erreur et l’indice de fidélité utilisé pour estimer l’erreur?
- erreur d’échantillonnage de contenu
- incohérence interne ou inter-items
- erreur d’échantillonnage dans le temps
- incohérence inter-informateurs
- instruments qui impliquent un degré relativement élevé de subjectivité
- instruments pour lesquels des résultats cohérents au sens large sont souhaités
- instruments de mesure de traits ou comportements relativement stables
- instruments qui requièrent une grande cohérence interne ou inter-item
- coefficient de fidélité moitié-moitié et coefficient de cohérence interne
- coefficient de fidélité test-retest
- coefficient de fidélité des formes parallèles
- coefficient de fidélité inter-juges
Erreur d’échantillonnage de contenu :
- instruments pour lesquels des résultats cohérents au sens large sont souhaités
- coefficient de fidélité des formes parallèles
Incohérence interne ou inter-items :
- instruments qui requièrent une grande cohérence interne ou inter-item
- coefficient de fidélité moitié-moitié et coefficient de cohérence interne
Erreur d’échantillonnage dans le temps :
- instruments de mesure de traits ou comportements relativement stables
- coefficient de fidélité test-retest
Incohérence inter-informateurs :
- instruments qui impliquent un degré relativement élevé de subjectivité
- coefficient de fidélité inter-juges
Vrai ou faux
On ne peut pas évaluer le degré de fidélité d’un instrument de mesure avec l’évaluation d’une seule personne
Vrai
on doit collecter les données d’un échantillons d’individus qui sont évalués avec l’instrument
Dans cette formule :
rx = var(vraie) / var(erreur)
Plus la part de variance vraie sera grande, plus le coefficient de fidélité s’approchera de ______, alors que plus la part de variance erreur sera grande, plus le coefficient s’approchera de _______
Plus la part de variance vraie sera grande, plus le coefficient de fidélité s’approchera de 1.0, alors que plus la part de variance erreur sera grande, plus le coefficient s’approchera de 0
Comme la définition de la fidélité à la base est qu’un instrument «devrait donner les mêmes résultats d’une administration à l’autre», il s’agit d’une mesure «______________» de la fidélité.
classique
Qu’est-ce que la fidélité des formes parallèles?
- On développe deux formes équivalentes du même instrument et on estime la corrélation des scores entre les deux formes pour les mêmes individus
- Instruments tout à fait similaires conceptuellement, mais avec des items légèrement différents
- Comme les deux formes parallèles sont supposées mesurer le construit de la même façon, l’objectif est donc de voir le degré d’erreur dans le contenu
- Après collecte de données: Corrélation élevée suggère bonne précision, ou dit autrement, peu d’erreurs de mesure
ex : examen du ministère a plusieurs versions
La question de l’________________________________ est cruciale pour pouvoir interpréter avec confiance la fidélité des formes parallèles
échantillonnage de contenu
Vrai ou faux
Dans la fidélité des formes parallèles, on peut simplement choisir des items au hasard dans une grande banque d’items
Faux
il faut faire une sélection quasi-aléatoire
Pas vraiment de «coefficient minimum» attendu dans la fidélité de formes parallèles, puisque la corrélation dépendra du ___________ (complexité du construit), en plus de facteurs _______________ des individus évalués (e.g., réaction différente aux deux formes)
On s’attend quand même à _____ au minimum (Anastasi & Urbina, 1997; Nunnally & Bernstein, 1994)
Pas vraiment de «coefficient minimum» attendu dans la fidélité de formes parallèles, puisque la corrélation dépendra du CONTENU (complexité du construit), en plus de facteurs PERSONNELS des individus évalués (e.g., réaction différente aux deux formes)
On s’attend quand même à 0,70 au minimum (Anastasi & Urbina, 1997; Nunnally & Bernstein, 1994)
Qu’est-ce que la fidélité test-retest?
- Évalue les mêmes individus avec le même instrument à deux reprises dans le temps pour voir s’ils obtiennent les mêmes résultats (scores)
- Pour l’estimer, l’intervalle de temps doit être assez court (environ 2 semaines à 1 mois)
- Après collecte de données: Une corrélation élevée suggère bonne précision, peu d’erreurs de mesure
- Pas vraiment de «coefficient minimum», mais si la corrélation est forte (au moins 0,70), l’instrument est considéré fiable
- s’il y a un écart entre les résultats (corrélation faible), il est parfois difficile de déterminer les raisons
Expliquer cette affirmation :
De façon générale, il ne faut pas s’attendre à des corrélations très élevées pour la fidélité test-retest
Vrai
car certains construits sont assez «plastiques» ou changeants dans le temps
Qu’est-ce que la cohérence interne?
- Lorsque les chercheurs.euses créent des échelles, ils tentent de regrouper des items qui forment un tout cohérent, autant sur le (a) plan conceptuel que sur (b) le plan empirique
- Autrement dit, il ne suffit pas que des experts.es suggèrent qu’un groupe d’items mesurent bien un construit, mais il faut aussi que les items soient significativement corrélés entre eux
- Avec des faibles corrélations entre les items, on peu se demander s’ils mesurent vraiment le même construit
- RÉSUMÉ DES INTER-CORRÉLATIONS
Quelles sont les 2 stratégies souvent utilisées pour évaluer la cohérence interne?
(1) coefficient de fidélité moitié-moitié et (2) coefficient de cohérence interne
Comment fonctionne le coefficient moitié-moitié?
- les chercheurs.euses divisent en deux les items d’une échelle et on estime ensuite les corrélations entre ces deux moitiés
- Encore une fois, l’échantillonnage de contenu est très important, il faut une sélection quasi-aléatoire des items
- Après collecte de données: Une corrélation élevée entre les deux moitiés indique bonne fidélité, peu d’erreurs de mesure
Quel est le problème méthodologique du coefficient moitié-moitié?**
avec moins d’items, les corrélations vont toujours être moins fortes, nonobstant le niveau de fidélité (- on a d’items, - fidélité est élevée)
Qu’est-ce que la prophétie de Spearman?
plus il y a d’items dans une échelle, plus sa fidélité est élevée
- Avec des échelles brèves : on peut appliquer la formule de la prophétie de Spearman-Brown pour déterminer quelle serait la corrélation avec plus d’items
Comment fonctionne le coefficient de cohérence interne?
- Les chercheurs.euses estiment l’homogénéité de tous les items d’une échelle
- Il s’agit d’un estimé statistique quantifiant l’ensemble des inter-corrélations entre tous les items d’une échelle
- Est-ce que les items d’une échelle forment un tout cohérent sur le plan empirique, sont assez fortement corrélés – et donc, génèrent peu d’erreurs de mesure
Nommer trois indices utilisés pour estimer la cohérence interne
Deux indices très utilisés pour estimer la cohérence interne (alpha de Cronbach et Kuder-Richardson-20) et un plus récent (Omega de McDonald)
Richardson a fait une blague sur
Alpha et omega
et OMG jveux du MCDO
Qu’est-ce que l’alpha de Cronbach?
- Pour les items continus (minimalement plus de 2 choix de réponses)
- On assume (mais ne teste pas) que les items mesurent une même variable latente (j’assume qu’une échelle mesure l’impulsivité)
- On assume aussi que tous les items sont reliés de la même façon à la variable latente (aka, tau équivalent)
- Statistiquement parlant, le coefficient α est l’équivalent de la moyenne de toutes les moitié-moitié possibles (toutes les combinaisons possibles)
Qu’est-ce que le Kuder-Richardson-20?
- Un cas spécial du alpha de Cronbach pour les items dichotomiques
- Comme pour alpha, lorsqu’on utilise KR-20, on assume (mais ne teste pas) que les items mesurent une même variable latente
- On assume aussi que le pourcentage de réponses correctes est le même pour tous les items
- Existe formule plus simple
Qu’est-ce qu’Omega de McDonald?
- Contrairement à alpha et KR-20, avec le Omega on teste explicitement que les items mesurent une même variable latente en utilisant l’analyse factorielle
- Le postulat irréaliste que tous les items sont reliés de la même façon à la variable latente n’a pas besoin d’être respecté – les saturations factorielles peuvent être différentes
Entre alpha, KR-20 et omega, lequel a tendance à procurer un estimé de la fidélité d’une échelle plus près de la réalité?
Omega à tendance à procurer un estimé de la fidélité d’une échelle plus près de la réalité que le alpha ou le KR-20
Alpha est un bon estimé de la fidélité seulement lorsque tous les items sont vraiment tous équivalents
OMG REGARDE RICHARDSON C’EST UN MÂLE ALPHA QUI ASSUME
Coefficients de cohérence interne varient tous entre ___ et ___. Après collecte de données: On souhaite un coefficient près de ___, ce qui suggère que les items d’une échelle sont très cohérents, qu’ils forment un tout; donc l’échelle génère peu d’erreurs de mesure. Si près de ___, les items ne sont pas homogènes, suggère que les questions de l’échelle sont trop indépendantes, ne vont pas ensemble ; donc l’échelle n’est pas précise, elle génère beaucoup d’erreurs. Typiquement, un coefficient de ___ et plus est considéré.
Coefficients de cohérence interne varient tous entre 0 et 1. Après collecte de données: On souhaite un coefficient près de 1.0, ce qui suggère que les items d’une échelle sont très cohérents, qu’ils forment un tout; donc l’échelle génère peu d’erreurs de mesure. Si près de 0, les items ne sont pas homogènes, suggère que les questions de l’échelle sont trop indépendantes, ne vont pas ensemble ; donc l’échelle n’est pas précise, elle génère beaucoup d’erreurs. Typiquement, un coefficient de 0,70 et plus est considéré.
Typiquement, un coefficient de 0,70 et plus est considéré. Cependant, en recherche, on accepte parfois des coefficients de _____ et de _____ et plus dans la pratique clinique.
Typiquement, un coefficient de 0,70 et plus est considéré. Cependant, en recherche, on accepte parfois des coefficients de environ 0,60 et de 0,80 et plus dans la pratique clinique.
Vrai ou faux
Des coefficients de cohérence interne très élevés sont toujours considérés comme très fiables et intéressants, tandis que les indices qui ne sont pas très élevés sont toujours considérés comme imprécis.
Faux
Les coefficients de cohérence interne très élevés – par exemple de 0,95 ou plus – sont parfois considérés moins intéressants puisque que ceci suggère qu’il y a potentiellement redondance de contenu, i.e., certaines questions mesurent probablement la même chose.
D’un autre côté, si les indices ne sont pas très élevés pour des échelles avec peu d’items – par exemple α = 0,50 pour une échelle à 2 ou 3 items – cela ne signifie pas de facto un problème de précision : C’est attendu (i.e., «Prophétie de Spearman»). On peut alors appliquer la transformation de Spearman-Brown pour connaitre la fidélité prédite de l’échelle si elle avait davantage d’items
Qu’est-ce que le principe de parcimonie?
les auteurs.trices pourraient enlever certaines questions
Enlever des participants louches dans une recherche à grand échantillon (ex: questionnaire de personnalité et adaptation)
Qu’est-ce que la fidélité inter-juges?
- Bien qu’il est attendu que les instruments de mesure ne soient pas influencés par la subjectivité des informateurs, plusieurs construits qui nous intéressent en psychologie et en psychoéducation le sont presque de facto
- Pour l’estimer, on vérifie si les évaluations des mêmes individus effectuées avec le même instrument, mais par différents informateurs (i.e., évaluateurs ou «juges») sont corrélés
Comment pouvons-nous distinguer la fidélité inter-juges de l’accord inter-juges?
- Termes souvent utilisés de façon interchangeable, mais il ne faudrait pas
- Fidélité inter-juges renvoie au degré de cohérence (ou corrélation) entre différents informateurs avec des mesures continues; on compare la variabilité (variance) entre les informateurs
Par exemple, les pensées ou certains comportements plus secrets (e.g., cpts. sexuels, consommation de substances psychoactives) sont généralement difficiles à évaluer par différents informateurs (faible fidélité inter-juges)
- Accord inter-juges renvoie plutôt à une mesure de degré auquel des informateurs sont en accord exactement – souvent avec des mesures catégorielles; ne considère pas variance
Vrai ou faux
L’estimation de l’accord inter-juges est cruciale en observation
Vrai
Ceci l’est tout autant avec des instruments comme les échelles d’évaluation ou questionnaires, tout comme pour les réponses collectées lors d’entrevues
Pour les instruments dimensionnels, on obtient généralement des corrélations significativement plus ___________ que celles attendues pour les autres types de fidélité
faibles
Expliquer cette affirmation :
Bien que dans le passé certains chercheurs.euses aient interprété les coefficients de fidélité inter-juges plutôt faibles comme une «mauvaise» fidélité des échelles, aujourd’hui on considère que c’est attendu
- Les individus (enfants, adolescents, adultes) vont fréquemment manifester des comportements différents dans différents contextes, notamment parce que les attentes sont différentes
- Différents informateurs provenant de différents contextes peuvent percevoir et procurer de l’information différente (et complémentaire) à propos d’un même individu évalué
- Différents informateurs procureraient donc une meilleure «validité écologique»
Quels sont les résultats de la méta-analyse de Achenbach et al.?
- 269 échantillons provenant de 119 études
- Corrélation entre informateurs similaires (e.g., deux parents) est en moyenne de 0,60
- Corrélation entre différents informateurs (e.g., un parent et un enseignant) est de 0,28
- Corrélation impliquant l’enfant/adolescent et un autre informateur est de 0,22
- Corrélations plus fortes pour EXT que INT
Selon la meta-analyse de De Los Reyes et al., comment pouvons-nous maximiser l’accord?
- Les informateurs connaissent bien l’enfant (familiarité avec l’enfant, temps passé avec lui.elle assez élevé)
- Les informateurs proviennent d’un même contexte d’observation (e.g., deux enseignants, deux parents)
- Les objets de l’évaluation sont des comportements plus facilement observables (par opposition à des choses moins facilement observables)
Qu’est-ce que l’erreur standard de mesure (ESM) ou erreur type de mesure?
- Donne une indication de la quantité ou du degré d’erreur de mesure associée aux scores d’une échelle
- En termes de score standardisé, il s’agit de l’écart-type de la distribution des erreurs
- Le score vrai est théorique, on tente de l’estimer
- estimé à l’aide d’un coefficient de fidélité
- Dans la pratique en évaluation, les ESM servent a construire un intervalle de confiance autour du score observé
- peut servir à identifier un critère empirique qui permet de déterminer s’il existe une différence significative entre les scores de deux échelles
L’ESM est __________________ liée à la fidélité.
Plus la fidélité est élevée, moins l’erreur standard de mesure est ____________, et vice versa
L’ESM est INVERSEMENT liée à la fidélité.
Plus la fidélité est élevée, moins l’erreur standard de mesure est GRANDE, et vice versa
Qu’est-ce qu’un intervalle de confiance et comment est-ce qu’on la calcule?
- Un intervalle de confiance est un estimé probabiliste permettant de situer le score observé à l’intérieur d’une étendue de scores donnée
- Permet une interprétation plus rigoureuse et prudente qui tient compte de l’erreur de mesure
- Selon les instruments, on peut parfois avoir des intervalles à 68% (1 ESM) et à 95% (2 ESM)
- On doit additionner et soustraire la valeur de l’ESM au score standardisé observé
Expliquer la comparaison des scores selon le chevauchement :
Placer les 2 échelles avec les intervalles de confiance une en dessous de l’autre et voir s’il se chevauchent. Si oui, elles ne sont pas significativement différentes.
Qu’est-ce que l’erreur standard sur la différence?
Calculée à partir des ESM procurés par les auteurs d’un test
ESdiff = √ (ESM1)2 + (ESM2)2
ESM1 et ESM2 correspondent aux valeurs des ESM des échelles 1 et 2 respectivement (i.e., deux échelles comparées)