Cours 4 Flashcards
Qu’est-ce que la fidélité d’un instrument ?
Concerne la précision de notre mesure ou le niveau d’erreur de mesure qu’elle génère.
Même si l’on dit (qu’un test est fiable), cette qualité ne s’applique pas au test, mais aux scores qu’ils génèrent.
Affirmer qu’un test est fiable, sous-entend que la fidélité a été établie de façon permanente, pour toutes les utilisations, avec tous les utilisateurs.
La fidélité n’est pas un concept dichotomique (fiable ou non), c’est une question de degré.
CE QUI EST CRUCIALE EN ÉVALUATION PSYCHOÉDUCATIVE : On veut savoir à quel point les variations des scores résultent de différences réelles dans le construit qui nous intéresse ou plutôt d’imprécisions (erreurs) de l’instrument de mesure qu’on utilise. Autrement dit, on veut savoir à quel point le score (vrai) est estimé avec justesse.
Expliquer la théorie psychométrique classique, la théorie du score vrai.
Score observé = score vrai + erreur de mesure (diapo 6)
rx = var vraie / var erreur (Plus la variance est grande, plus le coefficient de fidélité est proche de 1. Plus le coefficient est loin de 1, moins il y a une grande variance vraie.
QU’ON LE VEUILLE OU NON, Il y a TOUJOURS de l’erreur de mesure dans TOUS les instruments.
Les chercheurs tentent de construire des instruments qui limitent le plus possible l’erreur.
Les praticiens doivent connaitre la fidélité des instruments qu’ils utilisent pour faire des interprétation rigoureuse et prudente des scores.
Nommer et expliquez deux grandes types d’erreurs de mesure :
- Erreurs aléatoires
Définition : Fluctuations statistiques non reproduisibles, toujours présentes pour tous les instruments.
Autant au dessus qu’en dessous de la moyenne.
Distribuées normalement.
- Erreurs systématiques (ou biais)
Définition : Fluctuations constantes et reproduisibles qui sont toujours dans la même direction. Pas dans tous les instruments.
Surestimation ou sous-estimation constante des paramètres.
Pas distribuées normalement.
Quelle est la cause des erreurs aléatoires et comment peut-on les minimiser ou évaluer ?
Cause : Variation dans l’échantillonnage
Comment minimiser ou évaluer : Plus grands échantillons, plus de moments de mesure, peuvent être plus facilement estimées ou contrôlées statistiquement.
Quelle est la cause des erreurs systématiques (ou biais) et comment peut-on les minimiser ou évaluer ?
Cause : Mauvaise utilisation de l’instrument, conditions d’administration inadéquates, imperfections de l’instrument
Comment les minimiser ou évaluer : Difficiles à détecter, souvent ne sont pas connues, plus difficile à quantifier statistiquement.
Nommer et expliquer quatre sources d’erreur de mesure possibles et son indice de fidélité utilisé pour estimer l’erreur ?
- Erreur d’échantillonnage de contenu : coefficient de fidélité des formes parallèles (ou coefficient de congruence)
- Erreur d’échantillonnage dans le temps : coefficient de fidélité test-retest (ou stabilité temporelle)
- Incohérence interne ou inter-items : coefficient de fidélité moitié-moitié et coefficient de cohérence interne (IMPORTANT PRESQUE TOUJOURS LUI QUE L’ON ÉVALUE)
- Incohérence inter-informateurs : Coefficient de fidélité inter-juges (ou accord inter-juges)
Expliquer la fidélité des formes parallèles :
Dans la définition de la fidélité on mentionne qu’un instrument devrait donner les mêmes résultats d’une administration à l’autre.
Ici, on va développer deux formes équivalentes d’un même instrument et on va estimer les scores entre les deux formes pour les mêmes individus.
Les instruments sont similaires, mais ils ont des items différents.
Ici, il est à noter que la question de l’échantillonnage de contenu est cruciale pour que l’on puisse interpréter avec confiance cette forme de fidélité.
On fait une sélection quasi-aléatoire. On va chercher à voir quel est le degré d’erreur de contenu, car les deux devraient mesurer le construit de la même façon.
APRÈS COLLECTE DE DONNÉES : Corrélation élevée = bonne précision = peut d’erreurs de mesure
Il n’y a pas de coefficient minimum. Il n’y a pas de corrélation minimum, mais on s’attend au moins à 0,70 sinon on se demande s’il y a des erreurs d’échantillonnages de contenu.
Expliquer la fidélité test-retest :
Certains instruments prétendent mesurer des construits relativement stables dans le temps
Ex : traits de personnalité : Si on évalue le niveau d’extraversion et qu’on l’évalue une deuxième fois, une semaine après, c’est possible que si il change lors des deux mesures, c’est qu’on a fait une erreur.
Pour estimer, l’intervalle de temps doit être assez court (environ 2 semaines à un mois).
Après collecte de données : Une corrélation élevée suggère une bonne précision, peu d’erreurs de mesures.
Il n’y a pas vraiment de coefficient minimum, mais si la corrélation est forte (au moins 0,70), l’instrument est considéré comme étant fiable.
ATTENTION : Si il y a un écart entre les résultats (corrélation faible), il est parfois difficile de déterminer les raisons. (Ex : intervalle de temps trop long ? changement réel chez les individus ? Quantité d’erreurs de mesure ?)
De façon générale, il ne faut pas s’attendre à des corrélations très élevées pour la fidélité test-retest, car certains construits sont assez plastiques ou changeants dans le temps.
Qu’est-ce que la cohérence interne ?
Lorsque les chercheurs créent des échelles, ils tentent de regrouper des items qui forment un tout cohérent, autant sur (a) le plan conceptuel que sur (b) le plan empirique.
Donc, il faut que le groupe d’items mesure bien le construit et que les items soient corrélés entre eux.
Exemple : On va tenter de créer un bassin d’items qui forment un tout cohérent et qui concernent seulement l’impulsivité, mais qui touche différentes choses par rapport à l’impulsivité. (exemple impulsivité cognitive, parentale, etc.)
Il faut que ce concerne seulement l’impulsivité et que ce ne mesure pas autres choses, sinon ce n’est pas bien.
Important de tenir compte du plan conceptuel et empirique (empirique = après avoir collecté les données, j’ai demandé à des gens de remplir un questionnaire).
Après la collecte de donnée, on veut que les coefficients de cohérence interne varient tous entre 0 et 1. Plus il est proche de 1, plus on suggère que les items d’une échelle sont cohérents, qu’ils forment un tout et que l’échelle génère peu d’erreurs de mesure. Si c’est près de 0, les items ne sont pas homogènes, on suggère que l’échelle est trop indépendante, pas précise et qu’elle génère beaucoup d’erreurs.
un coefficient de 0,70 est considéré comme satisfaisant.
Quelles sont les deux stratégies qui permettent d’évaluer la cohérence interne ?
1) Le coefficient de fidélité moitié-moitié : Les chercheurs divisent en 2 les items d’une échelle et on estime ensuite les corrélations entre ces deux moitiés.
Ici, il faut une sélection quasi-aléatoire, donc l’échantillonnage de contenu est très IMPORTANT.
Après collecte de données : Une corrélation élevée entre les deux moitiés indique une bonne fidélité, peu d’erreurs de mesure.
Problème méthodologique : avec moins d’items, les corrélations seront toujours moins fortes ce qui va baisser le niveau de fidélité.
2) Le coefficient de cohérence interne : les chercheurs estiment l’homogénéité de tous les items d’une échelle.
Il s’agit d’un estimé statistique quantifiant l’ensemble des inter-corrélations entre tous les items d’une échelle.
Est-ce que les items forment un tout cohérent sur le plan empirique, sont ils assez fortement corrélés et donc, génèrent peu d’erreurs de mesure ?
Deux indices très utilisés pour estimer la cohérence interne (alpha de Cronbach et Kuder-Richardson) et un plus récent (Omega de McDonald).
** Expliquer le PRINCIPE PSYCHOMÉTRIQUE, LA PROPHÉTIE DE SPEARMAN : ** TRÈS IMPORTANT
** LORSQU’IL Y A MOINS D’ITEMS DANS UNE ÉCHELLE, CELA FAIT BAISSER LA CORRÉLATION ET BAISSE LA FIDÉLITÉ. PLUS IL Y A D’ITEMS, PLUS LA FIDÉLITÉ EST ÉLEVÉE. **
- Il y a une formule (seulement la comprendre)
Qu’est-ce que le Alpha de Cronbach ?
a
- Pour les items continus
- On assume (mais ne teste pas) que les items mesurent une même variable latente
- On assume aussi que tous les items sont reliés de la même façon à la variable latente.
- Statistiquement parlant, le coefficient a est l’équivalent de la moyenne de toutes les moitié-moitié possibles.
Bref, on assume (sans tester) que tous les items ont la même corrélation (en chiffre). C’est une situation très irréaliste dans la société.
Qu’est-ce que le Kuder-Richardson-20 ?
Un cas spécial du alpha de Cronbach pour les items dichotomiques.
Comme pour alpha, lorsqu’on utilise KR-20, on assume (mais ne teste pas) que les items mesurent une même variable latente.
On assume aussi que le pourcentage de réponses correctes est le même pour tous les items.
Il existe une équation plus simple.
Qu’est-ce que Omega de McDonald ?
Contrairement à alpha et KR-20, avec le Omega, on teste explicitement que les items mesurent une même variable latente en utilisant l’analyse factorielle.
Le postulat irréaliste que tous les items sont reliés de la même façon à la variable latente n’a pas besoin d’être respecté, les saturations factorielles peuvent être différentes.
Omega a tendance à procurer un estimé de fidélité d’une échelle plus près de la réalité que le alpha ou le KR-20.
- Alpha est seulement un bon estimé de validité lorsque TOUS les items sont vraiment tous équivalents.
OMEGA EST TRÈS IMPORTANT CAR : 1) IL TEST 2) PAS A ASSUMER, il a un estimé plus proche du vrai coefficient et de la vraie valeur. Donc, il a en général un coefficient plus élevé, car le alpha s’il est utilisé dans des conditions qui ne rencontrent pas le postulat, on sous estime sa fidélité. Le alpha est bon estimé si les postulats sont bien représentés. SINON, on doit utiliser OMEGA.
Dans des tableaux, à quoi sert le alpha ? Et comment on interprète les données ?
Les formules permettent d’interpréter plus facilement les tableaux. Le alpha permet de résumer toutes les corrélations du tableau et il vérifie si toutes les corrélations de l’échelle sont corrélés et environ pareilles.
Dans la section du tableau, moyennes des corrélations, on veut s’assurer que l’on se rapproche le plus possible de 0,50 pour s’assurer qu’elles sont séparés le plus également possible.
0.61 = bon, car cela signifie qu’on a bien séparé (presque 50%)
Minimum : 0.243 (Pas très élevé, mais ça va)