Chapitre 6 Flashcards
- Définition de l’objectif du test
- Quel est le trait, le construit ou la dimension que le test prétend mesurer?
- Quels scores veut-on obtenir avec ce test? (global? Ou on veut des sous scores?)
- Quelles sont les interprétations possibles? (ex: dépistage? Orientation pour de la prise en charge?
Quelle est la clientèle visée?
Est-ce que ce test existe déjà?
Utiliser les ressources présentées au chapitre 2 dont le MMY
Exemple: indice de sociabilité chez les adolescents et adolescentes (ISA). L’ISA a pour but de donner un indice aux chercheurs et aux cliniciens en ce qui concerne les compétences sociales chez les adolescents Nord-américains âgés de 12 à 19 ans. Liste de sous-construits.
- Questions de conception préliminaire
- Le mode d’administration, la formation requise
- La longueur (court et pratique ou long et efficace?)
- Le format des items (ICR ou ID?)
- Le nombre de scores (un total ou un pour chaque sous-construit?)
- Les recherches existantes dans le domaine (pratique,théorique ou pour une révision)
Anatomie d’un item de test
- Stimulus (verbal, écrit, autre, et provoque quelque chose chez la personne)
- Format de réponse au stimulus (conditions de réponse à l’item, ex: les limites de temps, les indices à donner, les types d’enregistrement)
- Procédures de cotation
Quels sont les types d’items?
- Items à choix de réponses (ICR)
V ou F, choix multiples, choix forcé
Likert, différenciateur sémantique, etc.
Exemples: encadrés 6.3 et 6.4, tableau 6.1, figures 6.3 et 6.4 - Cotation des ICR
Bonne ou mauvaise réponse
Systèmes de cotation alternatifs et approches de pondération - Items à développement (ID)
Réponse ouverte, construite, libre…
Essai, porte-folio, projectif, etc.
Exemple: encadré 6.5 - Le problème de la cotation des ID
La conceptualisation du système de cotation et l’accord inter-juge
Cotation globale, analytique, la qualification par points
Est-ce que les choix de réponse sont faciles à coter?
Oui. On ne se trompe pas dans l’interprétation.
Que serait un choix forcé?
Ex:
Format de réponse :
A. Imaginer que votre conjoint(e) s’attache émotionnellement à cette autre personne?
B. Imaginer que votre conjoint(e) a des relations sexuelles avec cette autre personne?
Qu’est-ce qu’un différentiateur sémantique?
Ex: comment trouvez-vous votre école? Indiquez où vous vous situez.
Chaleureuse _________________ Froide
Quels sont les avantages des ICR et ID?
- Avantages ICR
Cotation fiable
rapide
Les scores totaux sont faciles à calculer - Avantages des ID
Observation du comportement et des processus
Pour explorer des zones inhabituelles (personnalité)
Tests de rendement: pousseraient les étudiants à varier leurs stratégies d’apprentissage. - La validité de chaque approche est égale, selon les contextes.
Est-ce que la validité des ICR et des ID est égale?
Oui, selon les contextes.
Est-il recommandé de combiner les ICR et les ID?
Oui.
Comment composer des ICR?
- Plusieurs règles à suivre
La recherche de Haladyna - En résumé
Utilisez le bon contenu
N’induisez pas de réponse
Allez au plus simple
Suggestions pour formuler des items à développement.
Veiller à ce que la tâche soit claire
Avoir une idée précise et à l’avance de la cotation
Utiliser un nombre suffisant d’items
Quels sont les 3 étapes pour analyser un item:
- La mise à l’essai (ou prétest)
- Analyse statistique
- Sélection des items
Que dire sur la mise à l’essai?
- Informelle
- Formelle (3 approches) Échantillon indépendant (la plus courante, indépendant dans le sens où je n’utiliserai pas ces données-là pour publier mon score) Ajouts (intégration à des tests existants) En continu (tests de rendement)
- Taille de l’échantillon (critique)
Quel serait un exemple de mise à l’essai informelle?
Ex: la personnalité. Soumettre les tests de manière informelle.
Combien ça prend d’item pour tester la validité et la fiabilité?
Pour évaluer la fiabilité et la validité des items, ça prend 10 items par construit (règle partagée par les cliniciens). Ou 10 items par sous-construits. Et ça me prend au moins 10 personnes par item pour valider mon test.
Statistique des items
- Quelques termes (voir figure 6.5)
Termes inspirés des tests de rendement ou d’aptitudes :
prémisse, choix ou options, distracteurs ou leurres - Difficulté de l’item (valeur du p)
Ex. correct/incorrect
p est un indice de facilité où il correspond au pourcentage de personnes qui ont répondu correctement
p près de 1,00 est facile, près de 0 est difficile
Valeur de p?
Difficulté de l’item.
p est un indice de facilité où il correspond au pourcentage de personnes qui ont répondu correctement
p près de 1,00 est facile, près de 0 est difficile
À quoi correspond la prémisse (item)?
Au stimulus.
Pouvoir discriminant de l’item
- Est-ce que les items distinguent divers groupes de répondants (pas question ici de discrimination raciale, sexuelle, etc.) ?
- Critère
externe (avoir suivi ou non le PSY4130)
interne (les meilleurs à l’examen intra) - Indices de discrimination
D, r, r corrigé, corrélation item-total - Analyse des distracteurs (ou l’analyse des mauvaises réponses)
Quels sont les indices de discrimination?
D (items binaires), r, r corrigé, corrélation item-total
Quel est l’idéal de difficulté pour bien discriminer?
0.50
Que se passe-t-il si les forts répondent en minorité à un bon item?
L’item n’est pas bon.
Sur quoi porte l’analyse factorielle lors de la confection du test?
Sur les items.
- Application typique dans le domaine non-cognitif
- Approche de base – voir tableau 6.4
Quelles solutions (ou saturation) factorielles conserve-t-on?
Celles au-dessus de 33.
Que nous donne une analyse factorielle portant sur les items?
Cela donne la solution factorielle, ou la saturation factorielle. Ex: item 10 se retrouve au facteur 1 et au facteur 2. On veut des items purs. On peut l’éliminer alors. Il mesure trop d’affaires.
Fonctionnement différentiel des items?
But, procédure de base
L’analyse de Mantel-Haenszel (Tableau 6.4)
CCI pour le fonctionnement différentiel des items (figure 6.10)
D’autres techniques
Analyse d’items pour les tests critériés (TC)
Application
- Groupes contrastés
Compétents vs non compétents
Formés vs non formés - Les techniques habituelles d’analyses d’items ne sont pas pertinentes
Ici, plutôt: comparer les réponses en fonction de l’appartenance à des groupes.
- On s’attend à ce que les gens formés répondent mieux que les gens non-formés
Est-ce que les techniques habituelles d’analyse d’items sont pertinentes pour les tests critériés?
Non.
Est-ce que les aspects théoriques doivent supplanter les aspects empiriques?
Oui.
À quoi sert la standardisation?
À établir des normes
Quelle est la clé de la standardisation?
La représentativité du groupe de comparaison
En quoi doit-on faire d’autres recherches?
Calibrages des formes équivalentes, de divers niveaux (ex. 2e, 3e années du primaire)
Quelle est la version définitive d’un test?
Le test lui-même
Les directives de passation
Le manuel technique
Services et fascicules permettant la cotation et l’interprétation du test
Matériel supplémentaire, par ex. études de cas
Les tests biaisés, injustes ou inéquitables
Différence inattendue entre des groupes de répondants
- Compétences de conduite automobile chez les migrants (test biaisé)
- Compétences académiques chez les hommes
- Compétences en sciences chez les femmes
La seule différence de moyenne entre des groupes ne constitue pas un biais
Un test qui est équitable…
- Reflète le ou les mêmes construits pour tous les répondants.
- De plus, les résultats à ce test ont la même signification pour toutes les personnes de la population visée.
- Un test équitable n’offre aucun avantage ou désavantage lié à des caractéristiques n’ayant aucun lien avec le construit visé (notamment APA, 2014)
Méthode de l’étude de l’équité…
- Révision par un comité d’experts
Le fonctionnement différentiel des items
Ex. Méthode Mantel-Haenszel
Ex: tableau. Dans les scores les plus élevés ici, il y a une sous-représentation du groupe focal, ce qui ne devrait pas arriver. On peut modifier l’item. Ici, le tableau calcule des biais.