cours 4 : Erreurs de mesures, fidélité Flashcards

1
Q

Qu’est-ce que la fidélité ?

A

la fidélité concerne la précision de notre mesure, ou dit autrement, le niveau d’erreur de mesure qu’elle génère

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

est-ce que le concept de fidelité s’applique à un test?

A

Bien que l’affirmation « un test fiable » est commune, cette qualité en fait ne s’applique pas au test en tant que tel, mais s’applique aux scores qu’ils génèrent

  • Affirmer qu’un test est fiable sous-entend que la fidélité a été établie de façon permanente, pour toutes les utilisations, avec tous les utilisateurs.trices
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Est-ce que la fidélité est un concept dichotomique ?

A
  • La fidélité n’est pas un concept dichotomique (i.e., fiable vs non fiable) : tout est une question de degré (à quel degré la mesure génère des erreurs de mesures ?)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

pourquoi la notion de fidélité est cruciale en évaluation psychoéducative ?

A

Sur le plan clinique, avant de prendre des décisions importantes, on veut savoir à quel point les variations des scores – entre différents individus, ou entre différents moments de mesure – résultent de différences réelles dans le construit qui nous intéresse ou plutôt d’imprécisions (erreurs) de l’instrument de mesure qu’on utilise
○ Autrement dit, on veut savoir à quel point le score « vrai » est estimé avec justesse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Que comprend la théorie psychométrique classique?

A
  • Comprend la théorie du score vrai
    Score observé = score vrai + erreur de mesure

(Score observé = score mesuré)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Est-ce qu’il y a toujours de l’erreur de mesure?

A

Oui, il y a toujours de l’erreur de mesure, dans tous les instruments (d’évaluation) !!! (on cherche à savoir a quel point il y en a, à quel degré)

  • Les chercheurs.euses tentent de construire des instruments qui vont la limiter le plus possible
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Pourquoi les praticiens.nes doivent bien connaître la fidélité des instruments qu’ils utilisent?

A

pour faire une interprétation rigoureuse et prudente des scores

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quels sont les deux grands types d’erreurs de mesure ?

A
  • aléatoires
  • systématiques (ou biais)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Qu’est-ce que le type d’erreurs systématiques (ou biais) ?

A

définition :
- fluctuations constantes et reproductibles, qui sont toujours dans la même direction. Pas dans tous les instruments
- surestimation ou sous-estimation constantes des paramètres (ex. la moyenne)
- pas distribuées normalement

causes :
- mauvaise utilisation de l’instrument
- conditions d’administration inadéquates
- imperfections de l’instruments (lors de sa conception)

comment les minimiser/évaluer :
- difficile à détecter, souvent ne sont pas connues
- plus difficile à quantifier statistiquement

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Qu’es-ce que le type d’erreurs aléatoires ?

A

définition :
- fluctuations statistiques non reproductibles : toujours présentes pour tous les instruments
- autant en dessus qu’en dessous de la moyenne
- distribuées normalement

causes : variation dans l’échantillonnage

comment les minimiser/évaluer :
- plus grands échantillons
- plus de moments de mesures
- peuvent être plus facilement estimées/controlées statistiquement

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Quelles sont les 4 sources d’erreur de mesure ?

A
  1. erreur d’échantillonnage de contenu
  2. erreur d’échantillonnage dans le temps
  3. incohérence interne, ou inter-items
  4. incohérence inter-informateurs
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quel type d’instruments est sujet aux erreurs d’échantillonnage de contenu ?

A

instruments pour lesquels des résultats cohérents au sens large sont souhaités

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quel type d’instruments est sujet aux erreurs d’échantillonnage dans le temps ?

A

instruments de mesure de traits ou comportements relativement stables

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quel type d’instruments est sujet à l’incohérence interne, ou inter-items ?

A

instruments qui requièrent une grande cohérence interne ou inter-items

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quel type d’instruments est sujet à l’incohérence inter-informateurs ?

A

instruments qui impliquent un degré relativement élevé de subjectivité

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quel indice de fidélité est utilisé pour estimer l’erreur d’échantillonnage de contenu ?

A

coefficient de fidélité des formes parallèles (coefficient de congruence)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quel indice de fidélité est utilisé pour estimer l’erreur d’échantillonnage dans le temps ?

A

coefficient de fidélité test-retest (stabilité temporelle)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Quel indice de fidélité est utilisé pour estimer l’incohérence interne, ou inter-items?

A

coefficient de fidélité moitié-moitié

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Quel indice de fidélité est utilisé pour estimer l’incohérence inter-informateurs ?

A

coefficient de fidélité inter-juge (accord inter-juges)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Comment peut on évaluer le degré de fidélité d’un instrument de mesure ?

A

on doit collecter les données d’un échantillon d’individus qui sont évalués avec l’instrument, on ne peut pas évaluer le degré de fidélité d’un instrument de mesure avec l’évaluation d’une seule personne

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Comment est représenté la fidélité selon la théorie du score vrai ?

A

rx (le coefficient de fidelité) = varvraie / varerreur

Plus la part de variance vraie sera grande, plus le coefficient de fidélité s’approchera de 1.0, alors que plus la part de variance erreur sera grande, plus le coefficient s’approchera de 0

21
Q

Qu’est-ce que la fidélité des formes parallèles ?

A
  • On développe deux formes équivalentes du même instrument (forme A et forme B du même instrument) et on estime la corrélation des scores entre les deux formes pour les mêmes individus

les mêmes personnes vont faire la forme A et la forme B –> si les contenus sont biens choisi, la corrélation devrait être élevée entre les deux formes

Instruments tout à fait similaires conceptuellement, mais avec des items légèrement différents (exemple : deux versions d’examens très similaires)

Comme les deux formes parallèles sont supposées mesurer le construit de la même façon, l’objectif est donc d’estimer le degré d’erreur dans le contenu
Après collecte de données : Corrélation élevée (entre forme A et forme B) suggère bonne précision, ou dit autrement, peu d’erreurs de mesure

22
Q

Qu’est-ce qui est crucial de considérer pour pouvoir interpréter avec confiance la fidélité des formes parallèles ?

A
  • La question de l’échantillonnage de contenu
  • On ne peut pas simplement choisir des items au hasard dans une grande banque d’items : il faut faire une sélection quasi-aléatoire
    Tous les domaines ou sous-domaines spécifiques du construit doivent être représentés proportionnellement
23
Q

Est-ce qu’il y a un coefficient mimimum pour la fidélité des formes parallèles ?

A
  • Pas vraiment de « coefficient minimum » attendu, puisque la corrélation dépendra du contenu (complexité du construit), en plus de facteurs personnels des individus évalués (e.g., réaction différente aux deux formes, fatigue, etc.)

On s’attend quand même typiquement à un coefficient de 0,70 au minimum (mais il n’y a pas de point de coupure : 0,68 c’est correct)

24
Q

Qu’est-ce que la fidelité test-retest ?

A
  • Certains instruments prétendent mesurer des construits relativement stables dans le temps (e.g., traits de personnalité)
  • Si on évalue les mêmes individus avec le même instrument à deux reprises (ou plus) dans le temps, est-ce qu’ils obtiennent les mêmes résultats (scores) ?
  • Pour l’estimer, l’intervalle de temps doit être assez court (environ 2 semaines à 1 mois) (car si j’attend 6 mois/1 an, j’évalue le développement de la personne et non la fidélité de l’instrument)
  • Après collecte de données: Une corrélation élevée (entre le premier test et le deuxième test) suggère bonne précision, peu d’erreurs de mesure
25
Q

Est-ce qu’il a un coefficient minimum pour la fidélité test-retest ?

A
  • Pas vraiment de « coefficient minimum », mais si la corrélation est forte (au moins 0,70), l’instrument est considéré fiable

pas toujours réaliste de s’attendre à 0,70 et plus pour la fidélité test-retest

26
Q

Pourquoi n’est-il pas toujours réaliste de s’attendre à un coefficient de 0,70 et plus pour la fidélité test-retest ?

A
  • De façon générale, il ne faut pas s’attendre à des corrélations très élevées pour la fidélité test-retest car certains construits sont assez « plastiques » ou changeants dans le temps
    • e.g., Problèmes intériorisés changent plus facilement dans des courts laps de temps que problèmes extériorisés
    • e.g., Névrotisme change plus qu’Extraversion

s’il y a un écart entre les résultats (corrélation faible), il est parfois difficile de déterminer les raisons
- Intervalle de temps trop long? changement réel chez les individus? quantité d’erreurs de mesure?

27
Q

Qu’est-ce que la cohérence interne ?

A

Lorsque les chercheurs.euses créent des échelles, ils tentent de regrouper des items qui forment un tout cohérent, autant sur le (a) plan conceptuel que sur le (b) plan empirique

  • Autrement dit, il ne suffit pas que des experts.es suggèrent qu’un groupe d’items mesurent bien un construit, mais il faut aussi que les items soient significativement corrélés entre eux

Avec des faibles corrélations entre les items, on peut se demander s’ils mesurent vraiment le même construit (il faut mesurer des inter-corrélations entre les items d’une échelle)

28
Q

Quelles sont les deux stratégies pour évaluer la cohérence interne ?

A

(1) coefficient de fidélité moitié-moitié

(2) coefficient de cohérence interne

29
Q

Qu’est-ce que le coefficient de fidelité moitié-moitié ?

A

les chercheurs.euses divisent en deux les items d’une échelle et on estime ensuite les corrélations entre ces deux moitiés (échelle à 10 items –> on sépare en 5 et 5)

  • Encore une fois, l’échantillonnage de contenu est très important, il faut une sélection quasi-aléatoire des items (pour que les contenus/domaines/sous-domaines soient représentés proportionnellement entre les deux)
  • Après collecte de données: Une corrélation élevée entre les deux moitiés indique bonne fidélité, peu d’erreurs de mesure (les inter-corrélations entre les deux moitiés devraient être similaires)
30
Q

Quel est le problème méthodologique avec le coefficient de fidélité moitié-moitié ?

A

avec moins d’items, les corrélations vont toujours être moins fortes, nonobstant le niveau de fidélité

31
Q

Qu’est-ce que la prophétie de Spearman?

A

plus il y a d’items dans une échelle, plus sa fidélité est élevée

Avec des échelles brèves (ex. lorsque l’on divise l’échelle en 2 moitiés) : on peut appliquer la formule de la prophétie de Spearman-Brown pour déterminer quelle serait la corrélation avec plus d’items

ra = 2 (rsh) / 1 + rsh

□ ra est la corrélation ajustée avec tous les items (quelle serait la corrélation si j’avais le même nombre d’items dans deux échelles)

□ rsh est la corrélation avec la moitié des items (split half)

32
Q

Qu’est-ce que le coefficient de cohérence interne ?

A
  • les chercheurs.euses estiment l’homogénéité (quantitativement) de tous les items d’une échelle
    ○ Il s’agit d’un estimé statistique quantifiant l’ensemble des inter-corrélations entre tous les items d’une échelle
  • Est-ce que les items d’une échelle forment un tout cohérent sur le plan empirique, sont assez fortement corrélés – et donc, génèrent peu d’erreurs de mesure
33
Q

Quels sont les deux indices très utilisés pour estimer la cohérence interne ?

A

alpha de Cronbach et Kuder-Richardson-20

et un plus récent : Omega de McDonald

34
Q

Qu’est-ce que le Alpha de Conbach ?

A

Résume les intercorrélation entre les items

Statistiquement parlant, le coefficient α est l’équivalent de la moyenne de toutes les moitié-moitié possibles (toutes les combinaisons possibles)

35
Q

Quand utilisons nous la alpha de Cronbach ?

A
  • Pour les items continus (questions avec plusieurs choix de réponses (4 et plus) et non juste oui/non, vrai/faux)
  • On assume (mais ne teste pas) que les items mesurent une même variable latente (tous les items mesurent le même concept/ construit. Ex : l’impulsivité)
  • On assume aussi que tous les items sont reliés de la même façon à la variable latente (aka, tau équivalent) ( toutes les questions sont reliées de la même façons au score total, la corrélation au score total est la même pour tous les items)
36
Q

Comment calculer la coefficient alpha ?

A
  • la covariance moyenne des items est divisée par la variance totale – donc les corrélations entre les items doivent être élevées pour donner une valeur alpha élevée
  • Comme le nombre d’items est un facteur de l’équation, plus il y a d’items, plus alpha sera élevé
37
Q

Qu’est-ce que le Kuder-Richardson-20?

A
  • Un cas spécial du alpha de Cronbach pour les items dichotomiques (juste deux choix de réponses, oui/non, vrai/faux)
  • Comme pour alpha, lorsqu’on utilise KR-20, on assume (mais ne teste pas) que les items mesurent une même variable latente
  • On assume aussi que le pourcentage de réponses correctes est le même pour tous les items
  • Il existe une équation plus simple (KR-21)
38
Q

Qu’est-ce que le Omega de McDonald ?

A
  • Contrairement à alpha et KR-20, avec le Omega on teste explicitement que les items mesurent une même variable latente en utilisant l’analyse factorielle
    • Le postulat irréaliste que tous les items sont reliés de la même façon à la variable latente n’a pas besoin d’être respecté – les saturations factorielles peuvent être différentes (contrairement à alpha)
    • Omega à tendance à procurer un estimé de la fidélité d’une échelle plus près de la réalité que le alpha ou le KR-20 (oméga est typiquement plus élevé que alpha, aperçu plus réel de la réalité)
39
Q

Est-ce que Alpha est un bon estimé de la fidélité ?

A

seulement lorsque tous les items sont vraiment tau équivalents

sinon on utilise Omega

40
Q

Entre quelles valeurs varient les coefficients de cohérence interne (alpha, KR-2, omega) ?

A

Coefficients de cohérence interne varient tous entre 0 et 1

  • Après collecte de données: On souhaite un coefficient près de 1.0, ce qui suggère que les items d’une échelle sont très cohérents, qu’ils forment un tout; donc l’échelle génère peu d’erreurs de mesure (signifie que tous les inter-corrélations s’approchent de la perfection)
  • Si près de 0, les items ne sont pas homogènes, suggère que les questions de l’échelle sont trop indépendantes, ne vont pas ensemble; donc l’échelle n’est pas précise, elle génère beaucoup d’erreurs

Typiquement, un coefficient de 0,70 et plus est considéré satisfaisant (mais il n’y a pas de coupure claire)

  • En recherche, nous sommes moins conservateurs puisque qu’on peut appliquer une correction et on accepte parfois des coefficients ~0,60
    - En fait, en recherche, avec des modèles statistiques avancés utilisant des variables latentes (e.g., équations structurales), on peut obtenir des estimés sans aucune erreur de mesure
  • Dans la pratique clinique, on préfère toutefois des indices de cohérence interne au minimum de 0,80 et plus
    - L’erreur de mesure dans une échelle est un problème grave si vous vous basez sur cet instrument pour prendre une décision clinique importante qui aura une influence sur la vie d’un individu !
41
Q

Est-ce que les coefficients de cohérence interne très élevés sont intéressants ?

A
  • Dans un autre ordre d’idées, des coefficients de cohérence interne très élevés – par exemple de 0,95 ou plus – sont parfois considérés moins intéressants puisque que ceci suggère qu’il y a potentiellement redondance de contenu, i.e., certaines questions mesurent probablement la même chose
  • Il est assez fréquent dans une échelle de retrouver des items très similaires avec des différences minimes de formulation
  • Principe de parcimonie : les auteurs.trices pourraient enlever certaines questions (s’il est possible d’évaluer avec moins de questions –> plus simple)
42
Q

Si le coefficient de cohérence interne est pas très élevé avec des échelles avec peu d’item, est-ce qu’il y a un problème de précision ?

A
  • D’un autre côté, si les indices ne sont pas très élevés pour des échelles avec peu d’items – par exemple α = 0,50 pour une échelle à 2 ou 3 items – cela ne signifie pas de facto un problème de précision (c’est normal que le alpha soit faible s’il n’y a pas bcp d’items –> on doit faire la transformation)
  • C’est attendu (i.e., « Prophétie de Spearman »)
  • On peut alors appliquer la transformation de Spearman-Brown pour connaitre la fidélité prédite de l’échelle si elle avait davantage d’items
43
Q

Comment évaluons-nous des construits qui sont influencés par la subjectivité des informateurs ?

A
  • Pour l’estimer, on vérifie si les évaluations des mêmes individus effectuées avec le même instrument, mais par différents informateurs (i.e., évaluateurs ou « juges ») sont corrélées (quand la corrélation est proche de 0 (ex. entre la mère et l’enseignante), on se questionne à savoir si l’on mesure le même concept.)

Mais des variations sont normales (corrélation qui n’est pas égale à 1

44
Q

Quelle est la différence entre la fidelité inter-juges et l’accord inter-juges ?

A
  • Termes souvent utilisés de façon interchangeable, mais il ne faudrait pas
  • Fidélité inter-juges renvoie au degré de cohérence (ou corrélation) entre différents informateurs avec des mesures continues; on compare la variabilité (variance) entre les informateurs (la variance est intégrée, on s’intéresse aux différences entre les personnes)
  • Accord inter-juges renvoie plutôt à une mesure de degré auquel des informateurs sont en accord exactement – souvent avec des mesures catégorielles; ne considère pas variance (on se questionne à savoir si deux personnes donne la même réponse exactement avec un degré de significativité. À quel degré les personnes donnent la même réponse)
45
Q

Pour les instruments dimensionnels, on obtient généralement des corrélations comment ?

A

significativement plus faibles que celles attendues pour les autres types de fidélité (i.e., moins de 0,70)

46
Q

Bien que dans le passé certains chercheurs.euses aient interprété les coefficients de fidélité inter-juges plutôt faibles comme une « mauvaise » fidélité des échelles, aujourd’hui on considère que c’est attendu . Pourquoi ?

A
  • Les individus (enfants, adolescents, adultes) vont fréquemment manifester des comportements différents dans différents contextes, notamment parce que les attentes sont différentes
    Différents informateurs provenant de différents contextes peuvent percevoir et procurer de l’information différente (et complémentaire) à propos d’un même individu évalué
47
Q

Avoir recourt à différents informateurs procurerait quoi ?

A

une meilleure « validité écologique »

48
Q

On maximise l’accord inter-juge si quoi ?

A

si les informateurs :
* Connaissent bien l’enfant (familiarité avec l’enfant, temps passé avec lui.elle assez élevé)
* Proviennent d’un même contexte d’observation (e.g., deux enseignants, deux parents)
* Les objets de l’évaluation sont des comportements plus facilement observables (par opposition à des choses moins facilement observables) – e.g. un cpt vs une pensée

49
Q

Qu’est-ce que l’erreur standard de mesure ?

A
  • Parfois aussi appelée erreur type de mesure
  • Donne une indication de la quantité ou du degré d’erreur de mesure associée aux scores d’une échelle
  • En termes de score standardisé, il s’agit de l’écart-type de la distribution des erreurs
  • Le score vrai est théorique, on tente de l’estimer
    • e.g., si un individu rempli 50 fois la même échelle, il n’obtiendrait pas le même score 50 fois, on observerait plutôt une distribution, avec une moyenne (qui serait le score « vrai ») et une distribution des erreurs de mesure (qui serait normale, avec une moyenne de 0)
  • L’ESM est estimée à l’aide d’un coefficient de fidélité (Alpha de Cronbach, ou autre)
  • L’ESM est donc inversement liée à la fidélité
    • plus la fidélité est élevée, moins l’erreur standard de mesure est grande, et vice vers
50
Q

Qu’est-ce qu’un intervalle de confiance ?

A
  • Dans la pratique en évaluation, les ESM servent a construire un intervalle de confiance autour du score observé
  • Un intervalle de confiance est un estimé probabiliste permettant de situer le score observé à l’intérieur d’une étendue de scores donnée (probabilité à laquelle le score vrai se situe à l’intérieur de l’intervalle)
      ○ Permet une interprétation plus rigoureuse et prudente (des scores) qui tient compte de l’erreur de mesure
      ○ Selon les instruments, on peut parfois avoir des intervalles à 68% (1 ESM) et à 95% (2 ESM) (95% : moins de chances de se tromper--> mais plus grand intervalle) 
  • Pour le calculer, on doit additionner et soustraire la valeur de l’ESM au score standardisé observé
51
Q

Qu’est-ce que l’erreur standard sur la différence ?

A
  • Finalement, l’ESM peut servir à identifier un critère empirique qui permet de déterminer s’il existe une différence significative entre les scores de deux échelles
  • L’erreur standard sur la différence (ESdiff) est calculée à partir des ESM procurées par les auteurs.trices d’un test
    ESdiff = √ (ESM1)2 + (ESM2)2
    - ESM1 et ESM2 correspondent aux valeurs des ESM des échelles 1 et 2 respectivement (i.e., deux échelles comparées)
    (ES diff :donne une valeur minimale, lorsqu’on la dépasse il y a une différence statistiquement significative entre deux scores)