Chapitre 4 Flashcards

1
Q

Fidélité, définition = ?
S’applique à quoi?

A

Fidélité concerne la précision de notre mesure, ou dit
autrement, le niveau d’erreur de mesure qu’elle génère. (Comme la définition de la fidélité à la base est qu’un instrument « devrait donner les mêmes résultats d’une administration à l’autre », il s’agit d’une mesure « classique » de la fidélité.)

Bien que l’affirmation « un test fiable » est commune, cette
qualité en fait ne s’applique pas au test en tant que tel, mais
s’applique aux scores qu’ils génèrent.

La fidélité n’est pas un concept dichotomique (i.e., fiable vs non fiable) : tout est une question de degré. On veut savoir à
quel point les variations des scores – entre différents individus, ou entre différents moments de mesure – résultent de différences réelles dans le construit qui nous intéresse ou plutôt d’imprécisions (erreurs) de l’instrument de mesure qu’on utilise
* Autrement dit, on veut savoir à quel point le score « vrai »
est estimé avec justesse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

théorie du score vrai

A

Score observé = score vrai + l’erreur de mesure

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Qu’on le veuille ou non, il y a toujours de l’erreur de mesure dans…

A

dans tous les instruments !!!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Deux grands types d’erreurs de mesure
1) Nom
2) Définition
3) Cause
4) Comment les minimiser / évaluer
PAGE 9

A

1) Aléatoire
DÉFINITION
- Fluctuations statistiques NON REPRODUCTIBLES, toujours présentes pour tous les instruments.
- Autant au-dessus qu’en dessous de la moyenne.
- Distribuées normalement.
CAUSE
- Variation dans l’échantillonnage
COMMENT LES MINIMISER/ÉVALUER
- Plus grands échantillons
- Plus de moments de mesures.
- Peuvent être plus facilement estimées / contrôlées statistiquement.

1) Systémique ou biais
DÉFINITION
- Fluctuation CONSTANTES et REPRODUCTIBLES, qui sont toujours dans la même direction. Pas dans tous les instruments.
- Surestimation ou sous-estimation constante des paramètres (ex la moyenne)
- Pas distribuées normalement.
CAUSES
- Mauvaise utilisation de l’instrument (pas la faute des auteurs)
- Conditions d’administration inadéquates.
- Imperfections de l’instrument. (donc les auteurs ont mal conçu l’instrument)
COMMENT LES MINIMISER/ÉVALUER
-Difficile à détecter, souvent ne sont pas connues.
- Plus difficile à quantifier statistiquement.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

4 sources d’erreurs de mesure ainsi que leur indice de fidélité utilisé pour mesurer l’erreur

A

) Source d’erreur de mesure

A) Type d’instrument sujet à ce type d’erreur
B) Indice de fidélité utilisé pour mesurer l’erreur

1) Erreur d’échantillonnage de contenu (plus conceptuel)
A) Instruments pour lesquels des résultats cohérents au sens large sont souhaités.
B) Coefficient de fidélité des formes parallèles (ou coefficient de congruence)

1) Erreur d’échantillonnage dans le temps
A) Instruments de mesure de traits ou comportements relativement stables
B) Coefficient de fidélité test-retest (ou de stabilité temporelle)

1) Incohérence interne, ou inter-items (corrélation entre les items, plus empirique)
A) Instruments qui requièrent une grande cohérence interne ou inter-item
B)
- Coefficient de fidélité moitié-moitié
- Coefficient de cohérence interne

1) Incohérence inter-informateurs
A) Instruments qui impliquent un degré relativement élevé de subjectivité
B) Coefficient de fidélité inter-juge (ou accord inter-juges)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Fidélité des formes parallèles

A
  • On développe deux formes équivalentes du même instrument et on estime la corrélation des scores entre les deux formes pour les mêmes individus
  • Instruments tout à fait similaires conceptuellement, mais avec des items légèrement différents
  • La question de l’échantillonnage de contenu est cruciale pour pouvoir interpréter avec confiance cette forme de fidélité
  • On ne peut pas simplement choisir des items au hasard dans une grande banque d’items : il faut faire une sélection quasi-aléatoire
  • Tous les domaines ou sous-domaines spécifiques du construit doivent être représentés proportionnellement
  • Comme les deux formes parallèles sont supposées mesurer le construit de la même façon, l’objectif est donc d’estimer le degré d’erreur dans le contenu
  • Après collecte de données: Corrélation élevée suggère bonne précision, ou dit autrement, peu d’erreurs de mesure
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Fidélité test-retest

A
  • Certains instruments prétendent mesurer des construits relativement stables dans le temps (e.g., traits de personnalité)
  • Si on évalue les mêmes individus avec le même instrument à deux reprises dans le temps, est-ce qu’ils obtiennent les mêmes résultats (scores) ?
  • Pour l’estimer, l’intervalle de temps doit être assez court (environ 2 semaines à 1 mois)
  • Après collecte de données: Une corrélation élevée suggère bonne précision, peu d’erreurs de mesure
  • Pas vraiment de « coefficient minimum », mais si la corrélation est forte (au moins 0,70), l’instrument est considéré fiable

Mais attention: s’il y a un écart entre les résultats (corrélation
faible), il est parfois difficile de déterminer les raisons
* Intervalle de temps trop long? changement réel chez les
individus? quantité d’erreurs de mesure? (exemple, évaluation de l’humeur dépressive, on s’attend à ce qu’il y ait des changement réels et rapides. Donc, ce n’est pas nécessairement une erreur de mesure, mais plutôt que la mesure en elle-même change)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Cohérence interne

A
  • Lorsque les chercheurs. créent des échelles, ils tentent de
    regrouper des items qui forment un tout cohérent, autant sur le (a) plan conceptuel que sur le (b) plan empirique
  • Autrement dit, il ne suffit pas que des experts.es suggèrent qu’un groupe d’items mesurent bien un construit, mais il faut aussi que les items soient significativement corrélés entre eux
  • Avec des faibles corrélations entre les items, on peut se
    demander s’ils mesurent vraiment le même construit
  • Il y a deux stratégies souvent utilisées pour évaluer la cohérence interne: (1) coefficient de fidélité moitié-moitié et (2) coefficient de cohérence interne
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Pour le coefficient moitié-moitié

A

les chercheurs divisent en deux les items d’une échelle et on estime ensuite les corrélations entre ces deux moitiés
* Encore une fois, l’échantillonnage de contenu est très
important, il faut une sélection quasi-aléatoire des items
* Après collecte de données: Une corrélation élevée entre les deux moitiés indique bonne fidélité, peu d’erreurs de mesure

  • Problème méthodologique : avec moins d’items, les corrélations vont toujours être moins fortes, nonobstant le niveau de fidélité
  • « Prophétie de Spearman »: plus il y a d’items dans une
    échelle, plus sa fidélité est élevée
  • Avec des échelles brèves : on peut appliquer la formule de la prophétie de Spearman-Brown pour déterminer quelle serait la corrélation avec plus d’items
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Prophétie de ______ ET la prophétie de ________

A
  • « Prophétie de Spearman »: plus il y a d’items dans une
    échelle, plus sa fidélité est élevée
  • Avec des échelles brèves : on peut appliquer la formule de la prophétie de Spearman-Brown pour déterminer quelle serait la corrélation avec plus d’items
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Coefficient de cohérence interne

A

Pour le coefficient de cohérence interne, les
chercheurs estiment l’homogénéité de tous les items
d’une échelle
* Il s’agit d’un estimé statistique quantifiant l’ensemble des
inter-corrélations entre tous les items d’une échelle
* Est-ce que les items d’une échelle forment un tout cohérent sur le plan empirique, sont assez fortement corrélés – et donc, génèrent peu d’erreurs de mesure
* Deux indices très utilisés pour estimer la cohérence interne (alpha de Cronbach et Kuder-Richardson-20) et un plus récent (Omega de McDonald)

DU WEB : La méthode d’estimation de la fidélité la plus fréquemment utilisée en psychométrie est celle de la cohérence interne, aussi appelée homogénéité. Cette méthode consiste à évaluer le degré de cohésion des items qui composent un instrument psychométrique (ou chacune de ses échelles), lesquels devraient être étroitement liés. L’indice de fidélité s’exprime alors par la mesure de cette cohérence entre les items. Parce qu’elle ne requiert qu’une seule passation de l’instrument, cette mesure ne tient pas compte de la stabilité temporelle. Elle implique plutôt de vérifier la corrélation entre des scores composites obtenus au sein d’un même instrument selon deux moyens : la corrélation des scores obtenus à deux moitiés de l’instrument (méthode de bissection) et la corrélation des scores obtenus entre l’ensemble des items de l’instrument (méthode des covariances).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q
  • Deux indices très utilisés pour estimer la cohérence interne
A

(alpha de Cronbach et Kuder-Richardson-20) et un plus récent (Omega de McDonald)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Alpha de Cronbach
1) Pour quel type d’item?
2) Est-ce pour des items qui mesures la même variable latente? Quel est leur lien avec la variable latente?
3) Statistiquement parlant, le coefficient α est l’équivalent de…

A

1) Pour les items continus (Donc pas pour les items dichotomiques comme Vrai/Faux, Oui/Non). La alpha de Cronback résume les inter-corrélations.

2) On assume (mais ne teste pas) que les items mesurent une même variable latente. On assume aussi que tous les items sont reliés de la même façon à la variable latente (aka, tau équivalent)

3) Statistiquement parlant, le coefficient α est l’équivalent de la moyenne de toutes les moitié-moitié possibles (toutes les
combinaisons possibles)

D’un autre côté, si les indices ne sont pas très élevés pour des échelles avec peu d’items – par exemple α = 0,50 pour une échelle à 2 ou 3 items – cela ne signifie pas de facto un
problème de précision
* C’est attendu (i.e., « Prophétie de Spearman »)
* On peut alors appliquer la transformation de Spearman-Brown pour connaitre la fidélité prédite de l’échelle si elle avait davantage d’items

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Kuder-Richardson-20 (KR-20)

A

Un cas spécial du alpha de Cronbach pour les items
dichotomiques
* Comme pour alpha, lorsqu’on utilise KR-20, on assume (mais ne teste pas) que les items mesurent une même variable latente
* On assume aussi que le pourcentage de réponses correctes est le même pour tous les items
* Il existe une équation plus simple (KR-21)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Omega de McDonald

A
  • Contrairement à alpha et KR-20, avec le Omega on teste
    explicitement que les items mesurent une même variable
    latente en utilisant l’analyse factorielle
  • Le postulat irréaliste que tous les items sont reliés de la même façon à la variable latente n’a pas besoin d’être respecté – les saturations factorielles peuvent être différentes
  • Omega à tendance à procurer un estimé de la fidélité d’une échelle plus près de la réalité que le alpha ou le KR-20
  • Alpha est un bon estimé de la fidélité seulement lorsque tous les items sont vraiment tau équivalents
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

IMPORTANT : Les coefficients de cohérence interne varient tous entre… et qu’est-ce que ça signifie?

A

entre 0 et 1

1 : près de 1 suggère que les items d’une échelle sont très cohérents, qu’ils forment un tout; donc l’échelle génère peu d’erreurs de mesure. Typiquement, un coefficient de 0,70 et plus est considéré satisfaisant.

Dans un autre ordre d’idées, des coefficients de cohérence interne très élevés – par exemple de 0,95 ou plus – sont parfois considérés moins intéressants puisque que ceci suggère qu’il y a potentiellement redondance de contenu, i.e., certaines questions mesurent probablement la même chose. Principe de parcimonie : les auteurs pourraient enlever certaines questions

0 : les items ne sont pas homogènes, suggère que
les questions de l’échelle sont trop indépendantes, ne vont
pas ensemble; donc l’échelle n’est pas précise, elle génère
beaucoup d’erreurs

17
Q

Principe de parcimonie :

A
  • Il est assez fréquent dans une échelle de retrouver des items très similaires avec des différences minimes de formulation
  • Principe de parcimonie : les auteurs pourraient enlever certaines questions
18
Q

Fidélité inter-juges vs Accord inter-juges

A
  • Fidélité inter-juges renvoie au degré de cohérence (ou
    corrélation) entre différents informateurs avec des mesures
    continues; on compare la variabilité (variance) entre les
    informateurs
  • Accord inter-juges renvoie plutôt à une mesure de degré
    auquel des informateurs sont en accord exactement – souvent avec des mesures catégorielles; ne considère PAS LA VARIANCE

Pour les instruments dimensionnels, on obtient généralement des corrélations significativement plus faibles que celles attendues pour les autres types de fidélité (i.e., moins de 0,70)

  • Bien que dans le passé certains chercheurs.euses aient
    interprété les coefficients de fidélité inter-juges plutôt faibles
    comme une « mauvaise » fidélité des échelles, aujourd’hui on considère que c’est attendu
  • Les individus (enfants, adolescents, adultes) vont fréquemment manifester des comportements différents dans différents contextes, notamment parce que les attentes sont différentes
  • Différents informateurs provenant de différents contextes peuvent percevoir et procurer de l’information différente (et complémentaire) à propos d’un même individu évalué
  • Différents informateurs procureraient donc une meilleure « validité écologique »
19
Q

À SAVOIR POUR L’EXAMEN
Qu’est-ce qu’on peut-on mesurer avec le coefficient de fidélité :

A
  • Inter-juges
  • Cohérence interne
20
Q
  • Conclusions: on maximise l’accord si les informateurs :
A
  • Connaissent bien l’enfant (familiarité avec l’enfant, temps
    passé avec lui.elle assez élevé)
  • Proviennent d’un même contexte d’observation (e.g., deux
    enseignants, deux parents)
  • Les objets de l’évaluation sont des comportements plus
    facilement observables (par opposition à des choses moins
    facilement observables) – e.g. un cpt vs une pensée
21
Q

IMPORTANT : 1) Erreur standard de mesure (ESM). En termes de score standardisé, il s’agit de…

2) Dans la pratique en évaluation, les Erreur standard de mesure (ESM) servent…

3) Finalement, l’ESM peut servir à identifier un critère empirique qui permet de déterminer…

A

1) l’écart-type de la distribution des erreurs

Le score vrai est théorique, on tente de l’estimer
* e.g., si un individu rempli 50 fois la même échelle, il
n’obtiendrait pas le même score 50 fois, on observerait
plutôt une distribution, avec une moyenne (qui serait le
score « vrai ») et une distribution des erreurs de mesure (qui
serait normale, avec une moyenne de 0)

  • L’ESM est donc inversement liée à la fidélité. Plus la fidélité est élevée, moins l’erreur standard de mesure est grande, et vice versa.

2) a construire un intervalle de confiance autour du score observé

Un intervalle de confiance est un estimé PROBABILISTE permettant de situer le score observé à l’intérieur d’une étendue de scores donnée. (C’est la probabilité que le score se retrouve dans l’intervalle de confiance). Pour le calculer, on doit additionner et soustraire la valeur de
l’ESM au score standardisé observé

EXAMEN : L’intervalle de confiance ne change pas le score! Ça nous aide a interpréter le score.

3) Finalement, l’ESM peut servir à identifier un critère empirique qui permet de déterminer s’il existe une différence significative entre les scores de deux échelles. L’erreur standard sur la différence (ESdiff)) est calculée à partir des ESM procurées par les auteurs d’un test

22
Q
A