Cours 8 - Mise à l’épreuve d’un questionnaire Flashcards
Quelles sont les étapes d’élaboration d’un test? (4)
- Préparation du test. Définir l’objectif du test et opérationnaliser le construit. Générer les items et déterminer le format de réponse.
- Analyse de contenu. Révision des items par des experts du domaine. Opinion des experts sur l’opérationnalisation du construit, les items et le test en général.
- Mise à l’épreuve. Analyse d’items (stade informel et stade formel). Analyse préliminaire de la validité du test (cours validité).
- Étapes subséquentes. Étalonnage (cours Signification des résultats). Programme de recherches connexes (cours Fidélité/Validité). Préparation du matériel de testing final.
Qu’est-ce que l’analyse de contenu?
Procédure s’interrogeant sur la qualité des items et qui vise principalement à maximiser la validité de contenu de l’instrument en développement.
Vrai ou faux. L’analyse de contenu implique de consulter un groupe d’experts dans le domaine afin d’évaluer les items du questionnaire.
Vrai. Ils se posent les questions : Est-ce que les items reflètent bien le construit? Est-ce que les items sont bien formulés? Est-ce que le format de réponse convient? Est-ce que les items sont équitables? Est-ce que des biais de réponse sont attendus?
Quel est l’objectif de la mise à l’épreuve d’un questionnaire ?
Vise à administrer le test à un grand nombre d’individus pour faire un premier examen des qualités métriques du test en développement.
Vrai ou Faux. La mise à l’épreuve d’un questionnaire doit s’effectuer sur un échantillon représentatif de la clientèle visée.
Vrai. Autrement, la généralisation est difficile. Prendre en compte… La taille de l’échantillon, le niveau d’attribut, les circonstances entourant la sollicitation des participants, etc.
Qu’est-ce que l’analyse d’items dans la mise à l’épreuve ?
À partir des données cumulées au cours de la mise à l’épreuve, procédure visant à maximiser la fidélité et la validité d’un test en éliminant les items qui sont les moins susceptibles de discriminer les individus qui possèdent le trait évalué de ceux qui le possèdent moins.
Quels sont les 2 stades de l’analyse d’items ?
- Stade informel - analyse basée sur un petit échantillon (n=5 à 10) en vue de préparer le stade formel. Sert à voir les petits défauts pour s’ajuster.
- Stade formel - basé sur un plus grand échantillon et une variété d’indices statistiques.
Qu’est-ce que l’analyse de validité dans la mise à l’épreuve ?
Suivant une mise à l’épreuve du test, procédure visant à en vérifier la validité en recourant à une multitude de méthodes d’estimation. Peut être réalisée simultanément à l’analyse d’items. On peut vérifier l’effet du retrait d’un item ou de plusieurs sur la validité du test.
En fonction de l’usage prévu de l’instrument, et en faisant appel à une multitude d’indices statistiques, on s’intéresse ici à démontrer 4 types de validité. Quelles sont-elles?
- La validité d’apparence de l’instrument
- Sa validité critériée
- Sa validité de construit
- Sa validité de conséquence.
Quels sont les aspects à évaluer dans l’analyse de contenu ? (3)
- Pertinence de l’item en fonction du construit
- Clarté grammaticale et format de réponse
- Analyse de la possibilité des biais
Dans l’analyse de contenu, il faut évaluer la pertinence de l’item en fonction du construit, avec l’aide d’experts. Qu’est-il important à cette étape? (4)
- Nécessité de donner la définition du construit aux experts.
- Nécessité de décrire le contexte d’utilisation du questionnaire ainsi que la clientèle visée.
- Demander aux experts d’identifier la pertinence de l’item en fonction du construit ou la dimension sous-jacente.
- Respect de la structure et des frontières du construit.
Dans l’analyse de contenu, il faut vérifier la clarté grammaticale et le format de réponse. Qu’est-il important de vérifier à cette étape? (2)
- Les items présentent-ils un niveau de lecture adéquat? Selon la clientèle visée.
- Est-ce que le format de mesure est adéquat? Les juges pourraient suggérer (1)un mode de réponse plus sensible ou plus objectif ou (2)une présentation moins ambiguë des choix de réponses, etc.
Dans l’analyse de contenu, il faut faire l’analyse de la possibilité de biais. Qu’est-il important de vérifier à cette étape? (2)
- Les items sont-ils équitables (biais de genre, biais liés à l’origine ethnique, etc.)?
- Des biais de réponse sont-ils attendus pour certains d’entre eux (p. ex.: désirabilité sociale?)
Vrai ou Faux. Il est optionnel de construire une grille d’analyse des items afin de résumer le point de vue des experts.
Faux, c’est très important de le faire.
La décision finale quant aux items revient au chercheur qui élabore l’échelle parce que les experts du domaine… (3)
- N’ont pas nécessairement compris les motifs de l’élaboration du test.
- Ne comprennent pas nécessairement les principes sous-jacents à la construction d’une échelle. Ex: la nécessité de redondance.
- Ne sont pas toujours les meilleures personnes pour évaluer le niveau de vocabulaire employé, ni si les énoncés peuvent contenir des biais liés au sexe ou à l’origine ethnique.
Quels sont les aspects à évaluer dans le stade informel? (5)
- Clarté grammaticale des items
- Clarté des consignes
- Clarté de l’échelle de réponse
- Présentation générale du questionnaire
- Temps de passation, etc.
Quels sont les aspects à évaluer dans le stade formel? (6)
- Indices de difficulté
- Données descriptives (moyennes, fréquences)
- Corrélations inter-items
- Indices de discrimination
- Courbes caractéristiques d’items
- Cohérence interne
Quel est la définition de l’indice de difficulté?
Proportion d’individus qui a réussi un item (en %). Indice calculé à partir de mesures dichotomiques seulement. S’exprime à l’aide d’un « p ». Le p varie de 0 à 1. JAMAIS NÉGATIF! À noter que la sommation des p donne la moyenne au test. Le p réfère davantage aux tests à performance maximum, mais il peut aussi se calculer avec un test de personnalité. Il calcule alors le fait d’avoir répondu à l’item dans le même sens que le groupe critère (de présenter le construit).
Quels sont les critères d’application pour ce qui est de l’indice de difficulté? (3)
- On élimine les items qui sont réussis par tous ou manqués par tous (p=0; p=1): Ces items ont peu de chances de différencier les gens.
- On vise habituellement un p = 0.5 car cela donne plus de chances de différencier les gens.
- La difficulté moyenne des items dépendra toutefois de l’objectif d’utilisation du test (Ex: Dépistage vs Choix d’une élite) Dans un test de performance comme un examen, il est toutefois nécessaire d’avoir un niveau hétérogène de difficulté.
Pour ce qui est des indices de tendance centrales des items (la moyenne), que vise-t-on?
On vise une moyenne centrale. Ex: Échelle de réponse variant de 1 à 5, 3 est le point milieu. Si l’item dispose d’une moyenne centrale, la probabilité que celui ci discrimine adéquatement les sujets possédant plus fortement un construit, est plus grande.
Pour ce qui est des indices de dispersion pour chacun des items (l’écart-type), qu’étudie-t-on et que vise-t-on?
- On étudie la distribution de fréquence à travers les choix de réponses
- On vise une distribution s’approchant de la courbe normale. Si l’item dispose d’une distribution de fréquence normale, la probabilité que celui ci discrimine adéquatement les sujets possédant plus fortement un construit, est plus grande.