Cours 5: la façon dont nous posons les questions est importante Flashcards
Quelles sont les deux méthodes principales pour développer un test?
1) Inductif (axé sur les données)
* moins courante.
* difficile de créer des tests à partir de zéro, mais pas impossible -> + utilisée lorsque vous disposez déjà d’un test, d’un groupe d’items, etc. et que vous souhaitez construire un nouveau test en utilisant le matériel existant.
2) Déductif (axé sur les theories)
* plus fréquente et mieux pour la construction des tests
* commencer par définir la construction pour laquelle vous souhaitez créer une mesure.
Quels sont les autres noms de la méthode de construction de test déductive?
approche théorique/
rationnelle/
construction de la construction des tests
Quelle est la procédure pour construire un test avec la méthode inductive?
1) Commencer avec un grand groupe d’items
Généralement développés sans théorie ou structure explicite à l’esprit
2) Items assemblés en échelles sur la base de méthodes statistiques
examiner les corrélations avec d’autres items
examiner les corrélations avec les résultats souhaitables
examiner les corrélations avec les résultats indésirables
Il s’agit d’un processus “axé sur les données” : les items sont sélectionnés parce qu’ils prédisent ou améliorent la prédiction de la variable ou du comportement auquel le chercheur s’intéresse.
Comment les test sont-ils effectués? (les étapes)
- Définir l’objectif
- Conception préliminaires
- Préparation des items
3.5 testez votre test
- Analyses des items
- Standardisation et révision des items
5.5 retester votre test
5.7-> Répétez les étapes 4 et 5 & 5.5 jusqu’à ce que vous soyez content avec votre test.
- Preparation du material de test final
Dans la construction d’un test, comment définir l’objectif au départ?
Quel trait, quelle variable essayez-vous de mesurer ?
Focus sur les scores à donner
Type d’interprétation envisagée
Vous devez prendre des décisions sur ce que vous essayez de mesurer, sur la définition et la théorie avec lesquelles vous allez commencer, sur la façon dont vous allez noter le test, sur la façon dont les résultats du test seront interprétés…l’objectif et le public visé par le test, etc.
Quels sont les enjeux dans la conception préliminaire du test?
Ne passez pas immédiatement de la définition de l’objectif à la préparation des items.
Enjeux à considerer :
Mode d’administration, formation
Longueur
Format des items
likert, choix force etc.
Nombre de scores possibles, rapports d’évaluations
Recherche sur l’objectif du test qui existe déjà dans le domaine
Quelles sont les 3 raisons courantes d’utiliser un test?
- réponse à un besoin pratique
P.ex., Binet, Wechsler, Woodworth, MMPI, Otis - nécessaire pour mesurer une chose sur la base d’une théorie
La majorité des tests psychologiques créés à l’aide de méthodes modernes ont une orentation théorique.Un bon exemple de cela est l’HEXACO vs le MBTI - nous en parlerons plus en détail lors de notre cours sur la personnalité. - Révision, adaptation d’un test existent
créer des formes courtes
création de traductions
modernisation
l’anatomie de chaque question de test peut être décomposée en deux éléments principaux, lesquels?
le stimulus, le format de réponse et les procédures de notation. le contexte du test, qui comprend des éléments tels que les limites de temps et la méthode d’enregistrement des réponses,
Quels sont les types d’items dans un test?
Cotation des items a choix des response
Cotation des items a developpment
Quels sont les quotations des items à choix de réponse?
Vrai/Faux, choix multiples, choix-forcés
Likert, écarts sémantiques, etc.
échelles de réponses graphiques (courantes en psychologie du travail)
Quelles sont les notations pour les items à choix de réponse?
d’accord/désaccord
correct/incorrect
alternatives: P.ex., corrections, poids
La notation automatisée : une évolution majeure
Qu’est-ce qu’une échelle de Likert?
Il est du type d’échelle et de l’ensemble d’options de réponse les plus courants en psychologie. on vous demande généralement d’évaluer dans quelle mesure vous êtes d’accord ou non avec une affirmation.
Donne un exemple populaire d’échelle de likert (nom)
(hexaco)
Qu’est-ce qu’une question à choix forcé?
il s’agit d’une question de test de personnalité dans laquelle vous devez choisir l’option qui vous ressemble le plus et celle qui vous ressemble le moins parmi une série d’options qui pourraient toutes être de bons choix pour vous.
Ce type de question est souvent utilisé pour interroger les gens sur des sujets pour lesquels le répondant pourrait vouloir mentir sur sa réponse et se présenter sous un jour très favorable.
Quelle est la cotation des items à développement?
Les questions ouvertes peuvent prendre de nombreuses formes, notamment des questions écrites, l’évaluation d’un travail effectué par quelqu’un (portfolio) et même des dessins.
Quelle est la notation des items à développement?
Le problème de l’évaluation de ces types de questions est sans fin, mais il est préférable d’utiliser une grille d’évaluation, de faire appel à plusieurs juges et d’élaborer un plan de notation dans la mesure du possible.
Quels sont les avantages de la cotation des items à choix de réponses?
Les avantages de la notation d’items avec choix de réponses incluent la stabilité et la fiabilité de la notation d’items, la rapidité et la facilité d’exécution.
Quels sont les avantages de la cotation des items à développement?
Les questions ouvertes présentent certains avantages - vous pouvez obtenir des réponses à des questions qui indiquent des comportements rares, vous pouvez trouver quelque chose d’inattendu, mais ces types de questions sont beaucoup plus difficiles à noter.
Qu’est-ce qui est le mieux niveau validitié, entre des items à choix de réponse ou à développement?
SELON LE LIVRE - La validité semble être à peu près la même
Réalité: il est infiniment plus difficile d’établir la validité d’un test à réponse ouverte
La formulation des questions est une tâche très difficile - il y a beaucoup de choses à prendre en compte lors de la rédaction des questions. Quelles sont les 3 suggestions mentionnées par le professeur?
- Selon lui, le plus important est la clarté de l’objectif du test.
- Le meilleur moment pour établir la validité du contenu est pendant le processus de rédaction de l’item. Il est important de s’assurer que vous rédigez des items qui couvrent la plus grande partie possible du contenu du test (se référer à l’objectif pour savoir si les items couvrent tous ces éléments)
- Langage simple: éviter les questions doubles, les doubles négatifs, les longues phrases, les inexactitude factuelles.
Quelles sont les suggestions pour la cotation des items à développement?
Assurez-vous que la question/tâche est claire
Soyez précis sur la procédure de notation
Préparer la procédure à l’avance. Utilisez-la de manière cohérente.
Utilisez un nombre suffisant d’items
(plus est toujours mieux - en gardant à l’esprit les ressources)
une chose que le livre ne mentionne pas, mais qui peut s’avérer très utile, est de former les personnes qui évalueront les réponses à l’utilisation de votre système de notation. Cela contribuera à la cohérence de votre système de notation.
Quelle est la manière dont les informations sur les échelles sont généralement rédigées en vue d’une publication?
Cela inclut la manière dont nous rendons compte de leur fiabilité et de leur validité, ainsi que du choix de l’échelle.
1) ce que nous mesurons
2) comment nous le mesurons
3) quel type de réponse utilisons-nous ?
4) la fiabilité
5) d’autres auteurs ont-ils trouvé des preuves de sa validité ?
ex; « Les participants ont rempli l’inventaire de personnalité HEXACO (Ashton & Lee, 2009), qui comporte 60 items. Cette mesure contient six sous-échelles de 10 items : Honnêteté-Humilité, Emotionnalité, Extraversion, Agréabilité, Conscience et Ouverture. Les participants ont répondu à l’aide d’une échelle de type Likert en cinq points allant de 1 (pas du tout d’accord) à 5 (tout à fait d’accord). Ashton et Lee (2009) ont constaté que la fiabilité de la cohérence interne pour chacune des sous-échelles était supérieure à 0,73 et ont également fourni des preuves à l’appui de la validité de la mesure ».
Quelles sont les 3 phases d’analyse des items?
- Essai/distribuer des items
Informel – vos collegues
Formel – dans un etude - Analyses statistiques
TCT vs TRI - Sélection des items
À quoi fait référence la difficulté de l’item? (valeur p)
La difficulté de l’item fait référence au POURCENTAGE de candidats qui ont répondu à la question “correctement” ou de la “manière souhaitée”.
Imaginez que vous fassiez passer un test à 10 personnes en leur demandant “qu’est-ce que 5x5” ? 8/10 ont répondu 25
votre “p-value” pour cette question est de 0,8.
Quelles valeurs p font références à une difficulté faible, modérée ou élevée des questions?
P<20 difficile,
P>80 très facile,
~ 0.6 = moyen
À quoi fait référence la discrimination d’items?
la discrimination d’item fait référence à la capacité d’une question à différencier de la manière souhaitée des groupes de candidats à un test
il ne s’agit pas d’une discrimination basée sur des caractéristiques sociales, mais d’une discrimination basée sur un trait de caractère ou un niveau d’aptitude.
après avoir noté notre test, nous pouvons voir si des “groupes naturels” se forment au sein du test en examinant quels participants ont répondu et n’ont pas répondu correctement à chacune des questions - on peut parler de groupe à référence interne.
Qu’est-ce que l’indice D?
Différence entre la proportion d’élèves ayant obtenu la bonne réponse à l’item et la proportion d’élèves ayant obtenu une mauvaise réponse à l’item – ou un trait
En général, un niveau élevé de discrimination des items est préférable (entre 0,3 et 0,5).
Qu’est-ce que nous indique la corrélation totale de l’item?
corrélation entre les scores obtenus à une seule question d’un test et les scores obtenus à l’ensemble
il nous indique 1) si un item contribue positivement ou négativement au score global du test 2) et sa capacité à distinguer les performances élevées des performances faibles lors d’un test
Qu’est-ce qu’une analyse factorielle?
L’analyse factorielle est un outil essentiel pour les processus de développement de tests.
Peut être utilisée pour trouver les dimensions communes qui sous-tendent les éléments (items) d’une matrice de corrélation;
pour nous aider à comprendre la structure des données que nous y introduisons;
identifier comment les mesures de votre sondage forment des sous-échelles ou des variables dans leur ensemble
Explique les 2 grandes catégories d’analyse factorielle
l’analyse factorielle exploratoire
But: quelle est la structure des données que j’ai devant moi
l’analyse factorielle confirmatoire
but: la structure des données que j’ai devant moi correspond-elle à mes attentes quant à la façon dont elles devraient être structurées, sur la base de la théorie associée aux variables que j’ai étudiées ?
Sur quel genre de validité l’analyse factorielle peut-elle nous renseigner?
Les données brutes sont généralement introduites dans l’analyse factorielle. Lorsque vous saisissez des données dans une analyse factorielle, celle-ci crée des colonnes appelées “facteurs” qui représentent les variables de vos données. L’analyze vous montrez ensuite la corrélation entre chacun de vos éléments (items) et ces facteurs.
cela signifie que nous l’utilisons principalement pour examiner les relations entre les autres items.
il peut s’agir d’items provenant du même test ou d’items provenant de tests différents.
l’analyse factorielle peut donc être utilisée pour nous renseigner sur la validité convergente et discriminante.
Si un item est très fortement corrélé avec un facteur, cela signifie que l’élément (item) appartient à ce facteur.
chaque élément (item) ne peut appartenir qu’à un seul facteur
en examinant quels éléments (items) appartiennent aux facteurs identifiés par l’ordinateur, nous pouvons examiner le contenu des items et décider, en tant que chercheurs en psychologie, quel est le thème commun aux items et donner un nom au facteur.
Qu’est-ce que la théorie de réponse à l’item?
L’TRI est un nouveau modèle pour les tests psychologiques qui prend en compte la probabilité d’obtenir des réponses vrai ou fausses à des questions particulières.
Dans sa forme la plus simple, il se nomme modèle de Rasch et Plus généralement, les courbes caractéristiques des items (CCI) aident le développeur de tests à identifier les items qui fonctionnent différemment à différents niveaux d’aptitude des testeurs.
nécessite des échantillons beaucoup plus importants que le TCT
Dans les courbes caractéristiques des items (TRI), que représente l’axe des x et y
Sur l’axe Y, nous avons la probabilité d’obtenir une question correcte - et sur l’axe X, nous avons une estimation de la capacité du candidat au test (appelée thêta). Chaque ligne en forme de S sur le graphique correspond à une question différente du test.
Les CCI séparent la difficulté de l’item et la aptitude du
candidat et les présentent visuellement dans un seul graphique.
Lisez la section 6.1, qui traite des biais et de l’impartialité des tests.
Étant donné que cette section traite de concepts tels que la race, le sexe et l’équité des tests, j’ai pensé qu’il était préférable que vous lisiez simplement le manuel à ce sujet - je voulais éviter toute erreur de langage sur ce sujet sensible.
il y aura une question de cette section dans l’examen