Cours 4 Flashcards

1
Q

Qu’est-ce que la fidélité d’un instrument ?

A

Concerne la précision de notre mesure ou le niveau d’erreur de mesure qu’elle génère.

Même si l’on dit (qu’un test est fiable), cette qualité ne s’applique pas au test, mais aux scores qu’ils génèrent.

Affirmer qu’un test est fiable, sous-entend que la fidélité a été établie de façon permanente, pour toutes les utilisations, avec tous les utilisateurs.

La fidélité n’est pas un concept dichotomique (fiable ou non), c’est une question de degré.

CE QUI EST CRUCIALE EN ÉVALUATION PSYCHOÉDUCATIVE : On veut savoir à quel point les variations des scores résultent de différences réelles dans le construit qui nous intéresse ou plutôt d’imprécisions (erreurs) de l’instrument de mesure qu’on utilise. Autrement dit, on veut savoir à quel point le score (vrai) est estimé avec justesse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Expliquer la théorie psychométrique classique, la théorie du score vrai.

A

Score observé = score vrai + erreur de mesure (diapo 6)

rx = var vraie / var erreur (Plus la variance est grande, plus le coefficient de fidélité est proche de 1. Plus le coefficient est loin de 1, moins il y a une grande variance vraie.

QU’ON LE VEUILLE OU NON, Il y a TOUJOURS de l’erreur de mesure dans TOUS les instruments.

Les chercheurs tentent de construire des instruments qui limitent le plus possible l’erreur.

Les praticiens doivent connaitre la fidélité des instruments qu’ils utilisent pour faire des interprétation rigoureuse et prudente des scores.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Nommer et expliquez deux grandes types d’erreurs de mesure :

A
  1. Erreurs aléatoires

Définition : Fluctuations statistiques non reproduisibles, toujours présentes pour tous les instruments.

Autant au dessus qu’en dessous de la moyenne.

Distribuées normalement.

  1. Erreurs systématiques (ou biais)

Définition : Fluctuations constantes et reproduisibles qui sont toujours dans la même direction. Pas dans tous les instruments.

Surestimation ou sous-estimation constante des paramètres.

Pas distribuées normalement.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quelle est la cause des erreurs aléatoires et comment peut-on les minimiser ou évaluer ?

A

Cause : Variation dans l’échantillonnage

Comment minimiser ou évaluer : Plus grands échantillons, plus de moments de mesure, peuvent être plus facilement estimées ou contrôlées statistiquement.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quelle est la cause des erreurs systématiques (ou biais) et comment peut-on les minimiser ou évaluer ?

A

Cause : Mauvaise utilisation de l’instrument, conditions d’administration inadéquates, imperfections de l’instrument

Comment les minimiser ou évaluer : Difficiles à détecter, souvent ne sont pas connues, plus difficile à quantifier statistiquement.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Nommer et expliquer quatre sources d’erreur de mesure possibles et son indice de fidélité utilisé pour estimer l’erreur ?

A
  • Erreur d’échantillonnage de contenu : coefficient de fidélité des formes parallèles (ou coefficient de congruence)
  • Erreur d’échantillonnage dans le temps : coefficient de fidélité test-retest (ou stabilité temporelle)
  • Incohérence interne ou inter-items : coefficient de fidélité moitié-moitié et coefficient de cohérence interne (IMPORTANT PRESQUE TOUJOURS LUI QUE L’ON ÉVALUE)
  • Incohérence inter-informateurs : Coefficient de fidélité inter-juges (ou accord inter-juges)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Expliquer la fidélité des formes parallèles :

A

Dans la définition de la fidélité on mentionne qu’un instrument devrait donner les mêmes résultats d’une administration à l’autre.

Ici, on va développer deux formes équivalentes d’un même instrument et on va estimer les scores entre les deux formes pour les mêmes individus.

Les instruments sont similaires, mais ils ont des items différents.

Ici, il est à noter que la question de l’échantillonnage de contenu est cruciale pour que l’on puisse interpréter avec confiance cette forme de fidélité.

On fait une sélection quasi-aléatoire. On va chercher à voir quel est le degré d’erreur de contenu, car les deux devraient mesurer le construit de la même façon.

APRÈS COLLECTE DE DONNÉES : Corrélation élevée = bonne précision = peut d’erreurs de mesure

Il n’y a pas de coefficient minimum. Il n’y a pas de corrélation minimum, mais on s’attend au moins à 0,70 sinon on se demande s’il y a des erreurs d’échantillonnages de contenu.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Expliquer la fidélité test-retest :

A

Certains instruments prétendent mesurer des construits relativement stables dans le temps

Ex : traits de personnalité : Si on évalue le niveau d’extraversion et qu’on l’évalue une deuxième fois, une semaine après, c’est possible que si il change lors des deux mesures, c’est qu’on a fait une erreur.

Pour estimer, l’intervalle de temps doit être assez court (environ 2 semaines à un mois).

Après collecte de données : Une corrélation élevée suggère une bonne précision, peu d’erreurs de mesures.

Il n’y a pas vraiment de coefficient minimum, mais si la corrélation est forte (au moins 0,70), l’instrument est considéré comme étant fiable.

ATTENTION : Si il y a un écart entre les résultats (corrélation faible), il est parfois difficile de déterminer les raisons. (Ex : intervalle de temps trop long ? changement réel chez les individus ? Quantité d’erreurs de mesure ?)

De façon générale, il ne faut pas s’attendre à des corrélations très élevées pour la fidélité test-retest, car certains construits sont assez plastiques ou changeants dans le temps.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Qu’est-ce que la cohérence interne ?

A

Lorsque les chercheurs créent des échelles, ils tentent de regrouper des items qui forment un tout cohérent, autant sur (a) le plan conceptuel que sur (b) le plan empirique.

Donc, il faut que le groupe d’items mesure bien le construit et que les items soient corrélés entre eux.

Exemple : On va tenter de créer un bassin d’items qui forment un tout cohérent et qui concernent seulement l’impulsivité, mais qui touche différentes choses par rapport à l’impulsivité. (exemple impulsivité cognitive, parentale, etc.)

Il faut que ce concerne seulement l’impulsivité et que ce ne mesure pas autres choses, sinon ce n’est pas bien.

Important de tenir compte du plan conceptuel et empirique (empirique = après avoir collecté les données, j’ai demandé à des gens de remplir un questionnaire).

Après la collecte de donnée, on veut que les coefficients de cohérence interne varient tous entre 0 et 1. Plus il est proche de 1, plus on suggère que les items d’une échelle sont cohérents, qu’ils forment un tout et que l’échelle génère peu d’erreurs de mesure. Si c’est près de 0, les items ne sont pas homogènes, on suggère que l’échelle est trop indépendante, pas précise et qu’elle génère beaucoup d’erreurs.

un coefficient de 0,70 est considéré comme satisfaisant.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Quelles sont les deux stratégies qui permettent d’évaluer la cohérence interne ?

A

1) Le coefficient de fidélité moitié-moitié : Les chercheurs divisent en 2 les items d’une échelle et on estime ensuite les corrélations entre ces deux moitiés.

Ici, il faut une sélection quasi-aléatoire, donc l’échantillonnage de contenu est très IMPORTANT.

Après collecte de données : Une corrélation élevée entre les deux moitiés indique une bonne fidélité, peu d’erreurs de mesure.

Problème méthodologique : avec moins d’items, les corrélations seront toujours moins fortes ce qui va baisser le niveau de fidélité.

2) Le coefficient de cohérence interne : les chercheurs estiment l’homogénéité de tous les items d’une échelle.

Il s’agit d’un estimé statistique quantifiant l’ensemble des inter-corrélations entre tous les items d’une échelle.

Est-ce que les items forment un tout cohérent sur le plan empirique, sont ils assez fortement corrélés et donc, génèrent peu d’erreurs de mesure ?

Deux indices très utilisés pour estimer la cohérence interne (alpha de Cronbach et Kuder-Richardson) et un plus récent (Omega de McDonald).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

** Expliquer le PRINCIPE PSYCHOMÉTRIQUE, LA PROPHÉTIE DE SPEARMAN : ** TRÈS IMPORTANT

A

** LORSQU’IL Y A MOINS D’ITEMS DANS UNE ÉCHELLE, CELA FAIT BAISSER LA CORRÉLATION ET BAISSE LA FIDÉLITÉ. PLUS IL Y A D’ITEMS, PLUS LA FIDÉLITÉ EST ÉLEVÉE. **

  • Il y a une formule (seulement la comprendre)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Qu’est-ce que le Alpha de Cronbach ?

A

a

  • Pour les items continus
  • On assume (mais ne teste pas) que les items mesurent une même variable latente
  • On assume aussi que tous les items sont reliés de la même façon à la variable latente.
  • Statistiquement parlant, le coefficient a est l’équivalent de la moyenne de toutes les moitié-moitié possibles.

Bref, on assume (sans tester) que tous les items ont la même corrélation (en chiffre). C’est une situation très irréaliste dans la société.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Qu’est-ce que le Kuder-Richardson-20 ?

A

Un cas spécial du alpha de Cronbach pour les items dichotomiques.

Comme pour alpha, lorsqu’on utilise KR-20, on assume (mais ne teste pas) que les items mesurent une même variable latente.

On assume aussi que le pourcentage de réponses correctes est le même pour tous les items.

Il existe une équation plus simple.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Qu’est-ce que Omega de McDonald ?

A

Contrairement à alpha et KR-20, avec le Omega, on teste explicitement que les items mesurent une même variable latente en utilisant l’analyse factorielle.

Le postulat irréaliste que tous les items sont reliés de la même façon à la variable latente n’a pas besoin d’être respecté, les saturations factorielles peuvent être différentes.

Omega a tendance à procurer un estimé de fidélité d’une échelle plus près de la réalité que le alpha ou le KR-20.

  • Alpha est seulement un bon estimé de validité lorsque TOUS les items sont vraiment tous équivalents.

OMEGA EST TRÈS IMPORTANT CAR : 1) IL TEST 2) PAS A ASSUMER, il a un estimé plus proche du vrai coefficient et de la vraie valeur. Donc, il a en général un coefficient plus élevé, car le alpha s’il est utilisé dans des conditions qui ne rencontrent pas le postulat, on sous estime sa fidélité. Le alpha est bon estimé si les postulats sont bien représentés. SINON, on doit utiliser OMEGA.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Dans des tableaux, à quoi sert le alpha ? Et comment on interprète les données ?

A

Les formules permettent d’interpréter plus facilement les tableaux. Le alpha permet de résumer toutes les corrélations du tableau et il vérifie si toutes les corrélations de l’échelle sont corrélés et environ pareilles.

Dans la section du tableau, moyennes des corrélations, on veut s’assurer que l’on se rapproche le plus possible de 0,50 pour s’assurer qu’elles sont séparés le plus également possible.

0.61 = bon, car cela signifie qu’on a bien séparé (presque 50%)

Minimum : 0.243 (Pas très élevé, mais ça va)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quelles sont les différences dans la recherche et dans la pratique clinique au niveau du coefficient de cohérence interne ?

Que peut vouloir dire un coefficient de cohérence interne de 0,95 ou plus et comment on le considère ?

A

Dans la recherche : Moins conservateurs, accepte un coefficient de 0,60.
- Avec des modèles statistiques avancés utilisant des variables latentes, on peut obtenir des estimés sans aucune erreur de mesure.

Dans la pratique clinique : on veut des indices de 0,80 et plus.
- La vie d’un individu est en jeu ICI, donc l’erreur est GRAVE !

Un coefficient de 0,95 et plus peut être moins intéressant, car il suggère potentiellement de la redondance de contenu et il est possible que certaines questions mesurent la même chose.

Il est assez fréquent de retrouver une échelle avec des items qui ont des différences minimes de formulation.

Principe de parcimonie : Les auteurs pourraient enlever certaines questions.

17
Q

Qu’est-ce que le principe de parcimonie dans la cohérence interne ?

A

Principe de parcimonie : Les auteurs pourraient enlever certaines questions.

18
Q

Que peut vouloir dire un coefficient de cohérence interne de 0,95 ou plus et comment on le considère ?

A

Un coefficient de 0,95 et plus peut être moins intéressant, car il suggère potentiellement de la redondance de contenu et il est possible que certaines questions mesurent la même chose.

Il est assez fréquent de retrouver une échelle avec des items qui ont des différences minimes de formulation.

Principe de parcimonie : Les auteurs pourraient enlever certaines questions.

19
Q

Si les indices ne sont pas élevés pour des échelles avec peu d’items (comme a = 0,50) pour une échelle de 2 à 3 items, qu’est-ce que cela signifie ? Quel est le principe à appliquer ?

A

C’est attendu (Prophétie de Spearman), donc cela ne signifie pas de facto un problème de précision.

On peut appliquer la transformation de Spearman-Brown pour connaitre la fidélité prédite de l’échelle si elle avait plus d’items.

Formule - sur feuille

20
Q

Pourquoi la fidélité inter-juge est intéressante en psychoéducation ?

A

Les instruments de mesure ne devraient pas être influencés par la subjectivité des informateurs, mais plusieurs construits intéressants en psychoéducation ou psychologie le sont.

Exemple : Les pensées ou certains comportements secrets (sexuels ou consommation de substances) sont difficiles à évaluer par différents informateurs.

Pour l’estimer, on vérifie si les évaluations des mêmes individus effectuées avec le même instrument, mais par différents informateurs sont corrélés.

21
Q

Expliquer la différence entre la fidélité inter-juges et l’accord inter-juge ?

A

Ce sont des termes souvent utilisés de façon interchangeable, mais il ne faudrait pas.

Fidélité inter-juges : Renvoie au degré de cohérence (ou corrélation) entre différents informateurs avec des mesures continues; on compare la variabilité (variance) entre les informateurs.

Accord inter-juges : Renvoie plutôt à une mesure de degré auquel des informateurs sont en accord exactement - souvent avec des mesures catégorielle; ne considère pas la variance.

22
Q

Dans quel type d’évaluation l’estimation de la fidélité inter-juges est cruciale ?

A

En Observation

Ce l’est tout autant avec des instruments comme des échelles d’évaluation ou questionnaires, tout comme les réponses collectées lors d’entrevues.

23
Q

Comment on interprète les résultats de la fidélité inter-juges ?

A

Pour les instruments dimensionnels, on obtient généralement des corrélations significativement plus faibles que celles attendues pour les autres types de fidélité.

Il existe deux méta-analyses sur 30 ans pour les échelles d’évaluation :
- Achenbach, McConaughy et Howell (1987)
- De Los Reyes, et al. (2015)

Dans le passé, des chercheurs interprétaient le coefficient faible comme une mauvaise fidélité des échelles, aujourd’hui on considère que c’est attendu.

  • Les individus vont fréquemment manifester des comportements différents dans différents contextes, notamment parce que les attentes sont différentes.
  • Différents informateurs provenant de différents contextes peuvent percevoir et procurer de l’information différente à propos d’un même individu évalué.
  • Différents informateurs procureraient donc une meilleure validité écologique.
24
Q

Résumer la méta-analyse de Achenbach et al. (1987) :

A
25
Q

Résumer la méta-analyse De Los Reyes et al. (2015)

A
26
Q

Qu’est-ce que l’erreur standard de mesure (EMS) ? **

A

On l’appelle aussi erreur type de mesure.

Elle donne une indication de la quantité ou du degré d’erreur de mesure associée aux scores d’une échelle.

En terme de scores standardisé, il s’agit de l’écart-type de la distribution des erreurs. *** (NE PAS SE TROMPER AVEC LES SCORES BRUTES)

Le score vrai est théorique, on tente de l’estimer. Ex : Si un individu rempli 50 fois la même échelle, il ne va pas obtenir le même score 50 fois, on observerait une distribution avec une moyenne (le score vrai) et une distribution des erreurs de mesure (normale avec une moyenne de 0).

27
Q

L’ESM est _____________________ liée à la ___________.

A

Inversement

Fidélité

Plus la fidélité est élevée, moins l’erreur standard de mesure est grande, et vice versa.

28
Q

Qu’est-ce que les intervalles de confiance ?

A

Dans la pratique en évaluation, les ESM servent à construire un intervalle de confiance autour du score observé.

Un intervalle de confiance est un estimé probabiliste permettant de situer le sore observé à l’intérieur d’une étendue de scores données.
- Permet une interprétation plus rigoureuse et prudente qui tient compte de l’erreur de mesure.
- Selon les instruments, on peut parfois voir des intervalles à 68% (1 ESM) et à 95% (2 ESM).

Pour la calculer, on additionne et soustrait la valeur de l’ESM au score standardisé observé.

29
Q

Il faut faire une qualification prudente d’un score observé près d’un score critère donné (T=60) basée sur un IC95%. Expliquer :

A

60 = significativement au dessus de la moyenne

C’est possible que le score vraie soit 64, ce qui fait du sens. Si le score vrai est 58, c’est possible aussi. Il faut seulement rester prudent et toujours dire IL EST POSSIBLE que ce soit un score significatif. ON NE CHANGE PAS LA CONCLUSION, on dit considérant l’erreur de mesure, c’est possible que finalement le score soit dans la valeur normative.

30
Q

Qu’est-ce que signifie le chevauchement dans les intervalles de confiance ?

A

Le chevauchement permet de savoir si c’est significatif.

Même si les scores sont différents, on voit que les critères se chevauchent on conclue qu’il n’y a pas de différences significatives, car les résultats se chevauchent.

31
Q

Qu’est-ce que l’erreur standard sur la différence ?

A

L’ESM peut servir à identifier un critère empirique qui permet de déterminer s’il existe une différence significative entre les scores de deux échelles.

L’erreur standard sur la différence (ES diff) est calculée à partir des ESM procurés par les auteurs d’un test.

FORMULE