Cours 3 - Fidelité Flashcards
À quelle étape de l’élaboration d’un test est-ce qu’on détermine les propriétés psychométriques de l’instrument ainsi que la fidélité?
Étape #4 (Analyse des items).
Quels sont les 2 éléments à considérer dans l’analyse des items?
Fidélité.
Validité.
[VF]
Dans l’étape #4 de l’analyse des items, qu’est-ce qui est fait avec les items, et comment cela est-il décidé?
La sélection des items.
On sélectionne les items les plus liés au construit, avec la meilleure validité/fidélité.
Dans l’étape #4 de l’analyse des items, que cherche-t-on à diminuer le plus possible?
Les sources d’erreur de mesure.
À quoi peut souvent être liée l’erreur de mesure?
À un item/question plus ambigu.
Vrai ou faux: un instrument comportera toujours de l’erreur de mesure.
Faux; un instrument psychologique comportera toujours de l’erreur de mesure, mais pas tous les instruments.
Lors d’un item/question ambigu, que peut-on mesurer et qui est la source de l’erreur de mesure?
La compréhension des gens face à la question.
Qu’est-ce que la variance?
Une mesure de la façon dont les observations sont dispersées.
(Si les scores varient peu ou beaucoup)
La variance est la moyenne entre quels éléments?
Entre chacun des scores observés.
La variance donne un score __________, et donc on utilise l’__________.
Un score difficilement interprétable.
L’écart-type.
Que représente beaucoup de variance dans une population?
Des mesures plus éparpillées.
Comment seront dispersé les scores lorsqu’il y a un grande variance? Et une petite variance?
Grande variance: scores plus dispersés autour de la moyenne.
Petite variance: scores plus concentrés autour de la moyenne.
(Un peu comme l’erreur de mesure avec le score vrai)
Que représente l’écart-type?
L’écart moyen entre la moyenne et chaque score observé, sur l’échelle de mesure originale.
Que représente la covariance?
Le degré avec lequel deux variables varient ensemble.
La covariance [est/n’est pas] standardisée, et est [facile/difficile] à interpréter
N’est pas standardisée.
Difficile à interpréter.
La covariance quantifie à quel point les deux variables _________, mais le chiffre tel quel _______________.
Deux variables covarient ensemble, mais le chiffre tel quel ne veut pas dire grand-chose.
Que fait-on pour mieux interpréter la covariance?
On standardise avec la formule de corrélation.
Qu’indique le coefficient de corrélation (r)?
Il indique la force de relation entre deux variables (X & Y).
Entre quelles valeurs varie le coefficient de corrélation (r)?
Entre -1,00 et 1,00.
Qu’est-il important d’interpréter avec le coefficient de corrélation?
La signification statistique (valeur p).
Concrètement, que représente la valeur p?
À quelle point est-ce que la corrélation est dûe au hasard.
(Versus à quel point est-ce qu’elle est présente dans la population)
Habituellement, en psychologie, quelle valeur p souhaite-t-on obtenir?
p < 0.05.
Si j’ai une valeur p de p < 0.05, cela signifie que cette corrélation serait moins de _% du temps liée au ______.
Moins de 5% du temps liée au hasard.
Comment appelle-t-on une corrélation avec un coefficient de corrélation (r) de 1 ou -1?
Une corrélation parfaite.
Un corrélation nous donne le degré avec lequel la __________ des personnes sur la variable X est _____ à la __________ sur la variable Y.
La position des scores.
Est similaire à la position de leur score.
Qu’est-ce que la régression?
Un type de modèle statistique qui nous permet de comprendre la force de la relation entre deux variables et de faire des prédictions.
Concrètement, que représente la régression?
Si j’ai tel score sur la variable X, quel score je devrais avoir sur la variable Y.
(Si j’augmente de 1 sur ma variable indépendante, de combien j’augmente sur ma variable dépendante)
Que représente 𝜀?
L’erreur-type d’estimation.
Qu’indique l’erreur-type d’estimation?
La dispersion typique des valeurs autour de la droite de régression.
En d’autres termes, à quoi correspond l’erreur type d’estimation?
L’erreur de prédiction.
L’erreur-type d’estimation est une mesure de l’_____ associée aux _____ de la régression.
De l’incertitude associée aux prédictions de la régression.
Que signifie une plus grande corrélation au niveau de l’erreur-type d’estimation?
Une plus petite erreur-type d’estimation.
(Plus petite erreur-type d’estimation = prédiction et modèle plus précis)
Que quantifie la fidélité?
La façon avec laquelle les scores d’un test sont constants et reproductibles à l’intérieur d’une certaine marge d’erreur, sans égard à ce qu’il mesure (sa validité).
Un test qui est fidèle est un test pour lequel une même personne obtient le _____ résultat ou un résultat _____ lors de différentes _____.
Le même résultat ou un résultat similaire lors de différentes passations.
Une mesure non-fidèle ne sera jamais quoi, et pourquoi?
Elle ne sera jamais valide.
Car elle donnera toujours des mesures différentes.
Quels sont les 3 exemples de fidélité donnés?
Les résultats aux deux versions d’un examen sont similaires.
Deux psychologues font le même diagnostic de dépression.
Les résultats à un test de personnalité sont similaires, un mois après la première passation.
Quand est-ce qu’un test est considéré comme fidèle?
Lorsque les scores pour une même personne repassant le test sont similaires, sans qu’un changement ne devrait être attendu.
Quelle distinction faut-il faire pour la fidélité lorsqu’on mentionne «Lorsque les scores pour une même personne repassant le test sont similaires, sans qu’un changement ne devrait être attendu»?
La distinction entre un changement réel (la personne change réellement) et les fluctuations systématiques et aléatoires.
Pour la fidélité, lorsqu’on parle de «constance», à quels 2 constances cela fait-il référence?
Constant dans le temps.
Constant entre deux versions du même test.
[Temps, versions]
Qu’est-ce qu’une erreur systématique?
Une erreur de mesure qui affecte tous les scores de la même façon.
Qu’est-ce qu’une erreur aléatoire?
Une erreur de mesure affectant différemment les scores.
Quelles sont les 4 différentes sources d’erreur aléatoire?
Erreurs lors de la cotation.
Variations dans les procédures d’administration.
Variations naturelles chez les répondants.
Variations dans la représentativité du contenu (pour les versions parallèles).
[CARR]
Quel serait un exemple d’erreur aléatoirede variations dans la représentativité du contenu (pour les versions parallèles)?
Un test avec différentes versions, où une version est plus difficile.
Dans la théorie classique des tests, quels sont les 3 composantes de la décomposition du score, et que représentent-ils?
Score observé (O): Score obtenu par une personne à un test, tel qu’observé.
Score vrai (V): Score qu’aurait obtenu une personne à un test s’il n’y avait pas d’erreur de mesure.
Erreur de mesure (E): Différence (positive ou négative) entre le score vrai et le score observé, composée de tous les éléments qui jouent sur le score de la personne.
[OVE]
Le score vrai est techniquement un score purement _____.
Purement théorique.
Que se passe-t-il si quelqu’un effectue le même test plusieurs fois, et qu’est-ce que cela implique pour le score réel?
L’erreur de mesure va lentement disparaitre; cela nous rapproche du score vrai (réel).
Une moyenne de toutes nos performances nous permettra d’annuler l’erreur de mesure et nous donnerais une estimation de notre score réel (vrai).
(Beaucoup de scores = moyennes pour observé (O) et vrai (V), et erreur de mesure (E) disparait)
Qu’est-ce que la variance totale? Et la vraie variance?
Variance totale: tous les scores totaux que j’ai eu au test; à quel point tout le monde varie sur le test.
Vraie variance: la partie de cette variation qui est dû à notre vrai score.
Dans la variance du score observé, à quoi correspond la différence entre le score réel et le score observé?
L’erreur de mesure.
Comment seront dispersé les scores lorsqu’il y a un grande erreur de mesure? Et une petite erreur de mesure?
Grande erreur de mesure: scores plus largement dispersés autour du score vrai.
Petite erreur de mesure: scores plus centrés autour du score vrai.
(Un peu comme la variance avec la moyenne)
De quelle façon peut-on exprimer la fidélité?
Comme le ration entre le score vrai (V) et le score observé (O).
Pourquoi dit-on qu’on veut le score le plus proche de 1 lorsqu’on parle du ratio score vrai (V)/score observé (O) de la fidélité?
Un ratio de 1 entre le score vrai (V) et le score observé (O) signifie qu’il n’y a aucune erreur de mesure.
Cela signifie que la variation du score observé = la variation du score vrai.
Cela signifie qu’on mesure directement le score vrai.
Lorsqu’il est question du ratio de la fidélité, lorsque le ratio score vrai (V)/score observé (O) n’est pas égal à 1, c’est que le score _____ est plus grand que le score _____.
Le score observé est plus grand que le score vrai.
Quels sont les 3 types de fidélité?
Stabilité temporelle.
Fidélité interjuges.
Cohérence interne.
[Ci FiSt]
Qu’est-ce que la stabilité temporelle?
Le degré avec lequel la mesure d’un construit reste stable dans un intervalle de temps donné.
Qu’est-ce que la fidélité interjuges?
Le degré avec lequel des juges font la même évaluation lors de la correction d’un instrument.
Qu’est-ce que la cohérence interne?
Le degré avec lequel les items d’un instrument se tiennent bien ensemble et sont cohérents (les personnes fournissent des réponses cohérentes à tous les items).
Quelles sont les 2 méthodes pour mesurer la stabilité temporelle de la fidélité?
Corrélation test-retest.
Corrélation test-retest avec versions parallèles.
[T RP]
Quel autre nom porte la stabilité temporelle?
La fidélité test-retest.
Dans la corrélation test-retest, si à l’intérieur d’un délai donné, le construit devrait rester stable, deux mesures de ce construit à l’aide d’un instrument devraient être _____.
Être similaires.
Dans la corrélation test-retest, combien de fois le test est-il administré, et à qui?
Il est administré deux fois au même échantillon de personnes.
La force de la corrélation test-retest dépend de quels 2 éléments?
L’intervalle entre les deux mesures.
La quantité de changements survenus entre les deux mesures.
[IC]
Quels sont les 2 avantages de la corrélation test-retest?
Elle évalue l’erreur du aux fluctuations naturelles des personnes sondées.
Elle évalue l’erreur dans les variations de la méthode d’administration.
[FnA]
Quels sont les 3 inconvénients de la corrélation test-retest?
Elle ne tient pas compte des erreurs de variation de contenu.
Elle est difficilement réalisable pour les tests très longs.
Effet de mémoire possible.
[ML Vc]
Que mesure la corrélation test-retest avec formes parallèles?
La stabilité temporelle (fidélité test-retest) en annulant l’effet de mémorisation.
La force de la corrélation test-retest dépend de quels 3 éléments?
La qualité du parallélisme entre les deux versions.
L’intervalle entre les deux mesures
[Comme le test-retest]
La quantité de changements survenus entre les deux mesures.
[Comme le test-retest]
[PIC]
La corrélation test-retest avec formes parallèles semble être identique à la corrélation test-retest, avec l’avantage d’annuler l’effet de mémorisation; or, pourquoi n’effectuerions-nous pas toujours celle-ci?
Car il faut une forme parallèle au test, et il faut qu’on sache que cette forme parallèle est fidèle, valide ET réellement parallèle.
Qu’est-ce des versions parallèles d’un instrument?
Deux versions différentes d’un instrument, avec des items qui se ressemblent fortement.
Quelles sont les 4 caractéristiques des versions parallèles d’un instrument?
Même nombre d’items entre les deux versions.
Les instruments partagent la même structure dimensionnelle.
Les méthodes d’administration sont les mêmes.
Les moyennes et écart-types des scores sont les mêmes.
[DAMe N]
Les versions parallèles d’un instrument sont «pareils», à l’exception des _____.
Des items.
Quels autres tests sont-ils inclus dans les versions parallèles d’un instrument?
Les tests traduits.
Quelles sont les 2 méthodes pour vérifier la fidélité des tests traduits, et en quoi consistent-elles?
Rétrotraduction: Prendre le test et le traduire de la langue X à Y. Ensuite, cette version traduite est passée à quelqu’un d’autre, qui la retraduit de la langue Y à X. On devrait retrouver la même signification si la traduction est bonne.
Personnes bilingues: On demande à des personnes bilingues de répondre la première fois dans une langue, et la deuxième fois dans l’autre. On regarde ensuite la corrélation; elle devrait être très forte si la traduction est bonne, car les mêmes personnes répondent aux mêmes questions.
[Rétro, Bilingue]
Quels sont les 2 avantages de la corrélation test-retest avec formes parallèles?
Élimination de l’effet de mémoire.
Administration simultanée.
[MAs]
Quels sont les 3 inconvénients de la corrélation test-retest avec formes parallèles?
Préparation de deux fois plus d’items.
Les deux instruments doivent être validés.
Les instruments doivent absolument rester parallèles.
[V PD]
Qu’évalue la fidélité interjuges?
Les variations aléatoires attribuables à la correction du test par des juges.
Dans la fidélité interjuges, les juges corrigent les __________ au test. Les corrections des juges doivent être _____.
Les mêmes réponses.
Être indépendantes.
Quels sont les 3 éléments assurant une correction stable où les juges ont tous la même compréhension des réponses?
Compétence d’évaluation des juges.
Réponses possibles sont bien codifiées.
Formation offerte aux juges.
[Ce CF]
Afin d’évaluer la fidélité interjuges, entre quels éléments est faite la corrélation?
Entre les réponses/cote des juges.
Quelles sont les 2 [4] méthodes pour mesurer la fidélité interjuges de la fidélité?
Deux juges, pointage: corrélation de Pearson.
Deux juges, fréquence: Kappa.
Plus de deux juges, pointage: corrélation intra-classe.
Plus de deux juges, fréquence: Kappa.
[2 = P PFK
3 = PIC FK]
Quelles sont les 2 méthodes pour mesurer la cohérence interne de la fidélité?
Corrélation par bissection (Split-Half).
Alpha de Cronbach.
[IBC]
Que mesure la corrélation par bissection (Split-Half)?
À quel point le score obtenu à une moitié du test est similaire au score de la deuxième moitié.
Comment fonctionne la corrélation par bissection?
Après l’administration du test, on sépare ses items en deux et on les corrige comme si on avait deux versions du test.
Les scores des deux moitiés sont mises en corrélation pour toutes les personnes.
Dans la corrélation par bissection, pourquoi pourrait-on séparer les items selon s’ils sont pairs ou impairs?
Pour éviter que les items difficiles se retrouvent tous dans une version, ou que la fatigue teinte trop le résultat à la seconde moitié.
La corrélation par bissection donne la corrélation sur la fidélité de quoi?
De la moitié du nombre d’items.
(Et non sur le test en entier)
Dans la corrélation par bissection, puisqu’on coupe le nombre d’items en deux, cela vient __________ la fidélité du test.
Vient diminuer artificiellement.
Plus un test contient d’items, plus quoi?
Plus le risque d’erreur aléatoire diminue.
(Plus d’items = Plus de testing = Moins d’erreur aléatoire)
Avec quelle méthode est utilisée la correction de Spearman-Brown?
La corrélation par bissection.
À quoi sert la correction de Spearman-Brown?
Elle corrige la corrélation par bissection pour connaitre la fidélité du test en entier.
(Comme si la corrélation par bissection n’avait pas été basée sur la moitié des items)
Qu’estime la formule de la prophétie?
Le nombre d’items nécessaire pour augmenter la fidélité d’un test.
À quoi correspond la réponse à la formule de la prophétie?
Au nombre total d’items à avoir pour la fidélité désirée.
(Et non au nombre d’items à ajouter)
Si j’ai 15,96 comme résultat à la formule de la prophétie, combient d’items dois-je ajouter?
Inconnu.
La formule de la prophétie donne le nombre total d’items à avoir pour la fidélité désirée, et il manque le nombre d’items actuels à la question.
Si j’ai 15,96 comme résultat à la formule de la prophétie, combient d’items au total devrais-je avoir?
16.
(Et non 15)
Quels sont les 2 éléments nécessaires pour que la formule de la prophétie soit valide?
Les items ajoutés représentent le même domaine de contenu.
La moyenne des intercorrélations entre les items initiaux est égale à la moyenne des intercorrélations des items ajoutés.
[Même contenu & corrélations entre items]
Que mesure l’Alpha de Cronbach?
Le degré avec lequel les personnes répondent de façon similaire à tous les items d’un instrument.
(À quel point est-ce que les items vont ensemble)
Quel serait l’un des meilleurs indices de cohérence interne?
L’alpha de Cronbach.
Entre quels valeurs peut varier l’alpha de Cronbach, et entre quoi est-il situé la plupart du temps
Peut varier entre -∞ et 1.
Souvent entre 0 et 1.
Plus l’alpha de Cronbach s’approche de 1, plus quoi?
Plus la fidélité est bonne.
(Les gens ont répondu de façon similaire aux items)
Dans l’alpha de Cronbach, quels 3 éléments peuvent causer une plus grande cohérence interne?
Plus le nombre d’items est grand. (Car plus d’items = plus de fidélité)
Plus la corrélation moyenne entre les items est grande.
Plus il y a de variance dans les scores aux items.
[CV N]
Pourquoi préfère-t-on parfois prendre des tests avec moins d’items, en assumant qu’ils sont autant que des tests avec beaucoup d’items?
Car il y a moins de chance que sa fidélité soit artificiellement augmentée dû au nombre d’items.
À quel type de fidélité fait référence une erreur de variation dans les procédures d’administration, et quelles sont ses méthodes associées?
Stabilité temporelle.
- Corrélation test-retest.
- Corrélation test-retest avec versions parallèles.
[Admin et Personnes: Temporelle]
À quel type de fidélité fait référence une erreur de variation due aux personnes, et quelles sont ses méthodes associées?
Stabilité temporelle.
- Corrélation test-retest.
- Corrélation test-retest avec versions parallèles.
[Temporelle: Administration et Personnes]
À quel type de fidélité fait référence une erreur de variation dans la représentativité du contenu, et quelles sont ses méthodes associées?
Cohérence interne.
- Corrélation par bissection (Split-Half).
- Alpha de Cronbach.
[Représentativité: Interne)
À quel type de fidélité fait référence une erreur de variation dans la correction, et quelle est sa méthode associé?
Fidélités interjuges
- Accord interjuges (Pearson, Intra-classe, Kappa)
[Interjuges = Correction]
Que faut-il se demander avec d’interpréter les indices de fidélité? [2]
Les décisions prises sur les bases de l’instrument auront-elles une grande incidence? Si oui, restons conservateurs.
De combien d’items est composé cet instrument? Si il y en a beaucoup, restons conservateurs (car un grand nombre d’items augmente la fidélité).
[Incidence, nombre]
En clinique, des indices de fidélités de combien sont attendus, et pourquoi? Et en recherche?
Clinique: 0,90.
Car nos instruments ont un indice important.
Recherche: 0,80.
Quels sont les barêms pour les indices de fidélité?
Moins de 0,60: inacceptable/refusé.
Entre 0,60 et 0,70: faible.
Entre 0,70 et 0,80: modérée.
Entre 0,80 et 0,90: adéquate.
Plus de 0,90: très bien.
0,60: inacceptable
0,70: faible
0,80: modérée
0,90+: adéquate
[IFMA]
À l’aide de différents indices de fidélité, il est possible de déterminer la _____ de notre instrument.
La qualité.
Que suggèrent des indices de fidélité plus élevés?
Une moins grande erreur de mesure.
Que peut-on utiliser pour déterminer l’effet de l’erreur de mesure sur les scores observés?
La formule de l’erreur-type de mesure.
Plus l’erreur-type de mesure est grande, plus le score _____ contient de l’_____.
Plus le score observé contient de l’erreur.
Si j’ai un intervalle de confiance de 95% face à l’erreur-type de mesure, que cela signifie-t-il?
95% du temps, un score observé de X correspond à un score vrai situé entre ces valeurs.
La fidélité quantifie la façon avec laquelle les scores d’un test sont _____ et ____________________.
La fidélité quantifie la façon avec laquelle les scores d’un test sont constants et reproductibles à l’intérieur d’une certaine marge d’erreur.
Plusieurs méthodes existent pour mesurer les trois types de fidélité: la __________, l’__________ et la __________.
Plusieurs méthodes existent pour mesurer les trois types de fidélité: la stabilité temporelle, l’accord interjuges et la cohérence interne.