Cours 4 Flashcards
ÉTAPES DE LA CONCEPTUALISATION
- Connaître et différencier les différentes définitions du phénomène
- Positionnement de l’auteur sur la définition qu’il utilisera :
* Énoncé général ;
* Positionnement sur la structure du phénomène ;
* Indicateurs et exemples clairs de la définition. - Positionnement du phénomène avec d’autres variables
VALIDITÉ D’APPARENCE
Est-ce que le questionnaire semble mesurer ce qu’il doit mesurer? Quelles impressions l’instrument laisse-t-il sur les participants?
* Preuve non-empirique (la plupart du temps)
* Jugement subjectif
* Professionnalisme
* Dans certains cas, il n’est pas désirable que le test semble mesurer le réel concept qu’il prétend mesurer
* Ca peux affecter la crédibilité
VALIDITÉ CRITÉRIÉE
- Quelles sont les manifestations concrètes qui seraient liées aux résultats que mon instrument génèrera ?
- Le critère est une manifestation externe du phénomène qui permet d’informer sur la manière dont l’instrument se comporte
Groupe contrasté: bien discriminer entre les hauts performants et les performants « moyens »
TROİS TYPES DE CRİTÈRES
Critère réaliste externe
Autres tests
Groupes contrastés
VALIDITÉ DE CONTENU
- La correspondance entre le contenu d’un test et le domaine défini de connaissances / comportements que l’on veut mesurer.
Le domaine doit: - Être concret
- Être fini
VALIDITÉ DE CONSTRUIT Exemple avec le soutien social
L’étape 2 vise à définir de façon claire et concise le construit et ses dimensions.
Chaque dimension doit être conceptuellement reliée au construit et être relativement indépendante des autres dimensions.
Les étapes de la définition
La validité à l’étape de la conceptualisation
B. Il faut connaître, comprendre et bien définir le phénomène d’intérêt (en faisant des lectures théoriques, en faisant la synthèse du phénomène et des aspects conceptuels des instruments et en effectuant des consultations)
C. Il faut préparer les hypothèses qui nous serviront à vérifier les preuves de validité
ÉTAPE 3: L’ÉLABORATION - Lieu dans le Modèle de la cible:
Concept de la fiabilité (en vert)
Phase de Préparation (à gauche de la ligne verticale)
LA FIABILITÉ À LA PHASE DE PRÉPARATION - Fiabilité en général
« Jusqu’à quel point mon instrument comporte-t-il de l’erreur de mesure? »
LA FIABILITÉ À LA PHASE DE PRÉPARATION - À l’étape de l’élaboration
« Comment créer un instrument qui limite au maximum l’erreur de mesure?»
ÉTAPE 3: L’ÉLABORATION - Objectifs, Moyens
Objectifs
* Prévoir les sources d’erreur de manière à les minimiser
* Construction de l’instrument
Moyens
* Lectures « psychométriques »
* Inventaire des stratégies déjà employées
- Les décisions prises auront une incidence sur le niveau d’erreur de mesure et la manière d’évaluer l’étendue de l’erreur
- Il faut donc élaborer en faisant des choix éclairés par rapport:
- au type de test
- au type et au nombre d’items
- au type de réponse
- au type d’échelle
- à la méthode de cotation
- à la méthode d’administration
- ERREUR SYSTÉMATIQUE 2 types
a) La même erreur de mesure affecte tous les scores d’un instrument de tout le monde de la même manière, dans la même direction (ex. contexte ou il y a eu un alarme de feu) OU
b) La même erreur de mesure affecte tous les scores d’une personne de la même manière, dans la même direction (ex. la personne est pas bilingue)
* La fiabilité est moins en danger (la mesure peut rester constante et reproductible)
* Bien qu’importante et qu’il faille la minimiser, l’erreur systématique n’est pas considérée comme une source grave d’erreur de mesure comparer aux autres erreurs
- ERREUR ALÉATOIRE
Erreur aléatoire
* N’affecte pas tous les scores de la même manière: très problématique
- ERREUR ALÉATOIRE 4 catégories:
- Erreurs lors de la cotation : échelle de cotation super vague, mal corriger parce que c’est trop vague
- Variations dans les procédures d’administration : ???
- Variations dues aux répondants : ex entrevue de sélection d’un bon papa mais son bb a pas arrêter de pleurer tout la nuit alors tu ne mesure pas réellement son potentiel
- Variations en raison du contenu (items) : ???
Le papa qui a son bb peut être qu’il a mal performer a TOUT les items et la ca serait plus de l’erreur systématique!!
Systematique c’est soit tout les score de tout le monde ou tout les score d’une personne
TYPES DE TESTS
Instrument normatif, Instrument critérié, Vitesse, Puissance, Performance typique, Performance maximale, Papier-crayon, Performance, Individuel, Groupe
Instrument normatif
- Instruments dont l’interprétation des résultats repose sur la comparaison aux résultats compilés auprès d’un échantillon de la population à qui s’adresse l’instrument
- Comparer la personne pour avoir ensuite un score normer
Exemple: * WAIS
Instrument critérié
- Instruments dont l’interprétation des résultats repose sur le fait qu’un seuil critique à été, ou non, dépassé
- 60% pour passer
Exemple: - Examen au baccalauréat en psychologie
Test Vitesse
- Tous les items sont faciles et ont un niveau de difficulté égal (sauf lorsque le test est aussi de puissance)
- Correction: Le nombre d’items complétés en X temps OU le temps nécessaire pour compléter tous les items.
Exemple: Test de vitesse de traitement où l’on coche tous les « T » sur une page remplie de lettres
Faut les faires en ordre pas genre tout les 1 tout les 2 etc. c tricher
Ca peux être un test de vitesse qui est normer, ca peux être un teste de vitesse qui est un instrument critérié
Test Puissance
- Objectif: Vérifier les limites des connaissances ou des habiletés du candidat
- Les items sont ordonnés du plus facile au plus difficile
- Peut inclure un temps limite
- On mesure pas le temps mais si ca lui prend beaucoup de temps ca nous indique quest nul
Exemple: - Test des blocs de la WAIS
Performance typique
- Comment la personne est-elle dans la vie de tous les jours ?
- Vise à mesurer le niveau habituel
- Jveux pas savoir quand elle est dans son mieux, juste qiuand elle est nrml
- Le mieux pour les work parce que la personne va pas toujours être a son meilleur quand elle vient work
Exemple: - Test de personnalité
Performance maximale
- Comment la personne est-elle à son mieux?
- Vise à mesurer la meilleure performance possible
Exemple: - Test de rendement
Test Papier-crayon
- Les personnes qui passent le test répondent à des items écrits
Exemple: - Questionnaire « Test de personnalité »
Test Performance
- Les personnes soumises au test effectuent une tâche
Exemple: - WAIS
- Tache avec des disques
Attention, on réfère au résultat obtenu à tout test comme « la performance au test ».
Test Individuel
- Instruments conçus pour être administrés à une personne à la fois
- ne peuvent PAS être administrés en groupe
Exemple: - Rorschach
Test de Groupe
- Instruments conçus pour être administrés à plusieurs individus à la fois
- Peuvent être administrés à une personne lorsque les circonstances le dictent et lorsque le « manuel » décrit comment le faire
Exemple: - SAT
- Casper
Qu’est-ce qu’un item?
- Le stimulus ou amorce auquel répond le participant
- C’est « la question »
- Peut être écrit ou oral ou image quon doit completer (quel correspond)
2 formats de réponse:
- réponse fermée (ou à choix de réponses)
- réponse ouverte (ou à développement)
J’ai un bon appétit (assez général)
Je porte attention aux détails (assez général)
Mathilde a 2,60$ et achète trois crayons à 50¢ chacun. Combien lui reste-t-il?
ITEMS À RÉPONSE FERMÉE
Choix forcé : extrémité, pour voir l’opinion frl, ex. je préfère tuer quelqu’un ou manger du caca toute ma vie
ITEMS À QUESTION OUVERTE
La réponse à une question ouverte peut être d’un seul mot ou plus longue
Exemples
* Associations verbales
* Compléter une phrase
* Stimulus visuel ambigu
* Question à développement dans un examen
Ex. yorsack
ITEMS À CHOIX DE RÉPONSES OU À DÉVELOPPEMENT ?
Avantages et des inconvénients pour les 2 types de format de réponse
* Test collectif ou individuel
Choix de réponses
- Fidélité de la cotation, fidelité test retest
- Optimisation du temps de passation
- Optimisation du temps pour la cotation, tu le mets juste dans la machine et ca corrige solo comme els exam a luni
Items à développement
- Facilite l’observation de comportements et de processus associés au test
- Richesse de l’information recueillie
TYPES D’ÉCHELLES
Les variables sont évaluées ou quantifiées à l’aide d’échelles de mesure.
Classification en quatre types aux propriétés distinctes:
- Nominale 2. Ordinale 3. Intervalles 4. Rapport
ÉCHELLE NOMINALE
Cette échelle permet:
a) d’identifier les personnes
C’est une échelle catégorielle, où les nombres représentent une caractéristique particulière
* Le nombre n’a pas de sens particulier à part représenter la catégorie
* On ne peut donc faire aucune opération mathématique avec ces nombres
Exemples:
* Numéro d’assurance sociale
* Numéro de dossard
* 0=Femme/1=Homme
* 1=Montréal/2=Québec/3=Rimouski
ÉCHELLE ORDINALE
Cette échelle permet:
a) d’identifier les personnes
b) de les mettre en ordre de rang
* Les nombres entretiennent une relation entre eux
* On ne peut faire aucune opération mathématique avec ces nombres à part les classer en ordre
* On ne connaît pas la distance entre chaque position
Exemples:
* Rang dans une compétition sportive
* Rang des journées les plus chaudes de l’année
* Rang de la personne la plus grande à la plus petite
ÉCHELLE À INTERVALLES
Cette échelle permet:
a) d’identifier les personnes
b) de les mettre en ordre de rang
c) d’effectuer des additions et des soustractions
Tous les écarts entre les nombres sont équivalents (équidistants). Toutefois, l’échelle est arbitraire et le 0 (zéro) ne signifie pas l’absence de l’attribut
Exemples:
* Température en Celsius ou en Fahrenheit
* L’année
ÉCHELLE DE RAPPORT
Cette échelle permet:
a) d’identifier les personnes
b) de les mettre en ordre de rang
c) d’effectuer des additions et des soustractions d) d’effectuer des multiplications et des divisions
Tous les écarts entre les nombres sont équivalents (équidistants).
* L’échelle possède un zéro absolu, où 0 signifie l’absence de l’attribut
Exemples:
* Température en Kelvin
* Distance au lancer du javelot
* Score à un examen en pourcentage
Age = échelle absolue continu ??
RÉSUMÉ DES QUATRE TYPES D’ÉCHELLES
ÉCHELLES COURANTES EN PSYCHOLOGIE
- En psychologie, il y n’y a pas vraiment d’échelles de rapport. Principalement nominal ordinal intervalle
- On s’intéresse peu à la température, la distance, etc.
- Les échelles sont principalement nominales, ordinales ou à intervalles
QU’EN EST-IL DES ÉCHELLES DE LIKERT?
- Développé en 1932 dans un contexte d’items mesurant les attitudes
- Propose un nombre pair ou impair d’alternatives
- Le nombre d’alternatives dépend de la capacité des répondants à faire la distinction entre elles
- Les mots (ancres) doivent être bien choisis
- Les mots (ancres) supposent un ordonnancement en terme d’intensité du phénomène d’intérêt
- Les écarts entre les alternatives adjacentes sont présumés équidistants
QU’EN EST-IL DES ÉCHELLES DE LIKERT?
PROBLÈME AVEC CERTAINES ÉCHELLES
PROBLÈME AVEC CERTAINES ÉCHELLES
NOMBRE D’ANCRES DANS UNE ÉCHELLE DE LIKERT
- L’échelle devrait comporter assez d’ancres pour que la personne puisse faire un choix
- Elle devrait aussi en comporter un nombre assez restreint pour que les choix soient assez distincts les uns des autres
- L’échelle doit être adaptée à la population cible
- Veut-on forcer la personne à se prononcer ou non?
TYPES DE CORRECTION
**On dit aussi cotation, ou scoring
* La correction dépend directement du type d’item et de format de réponse choisi
* Combien de points sont accordés par item, selon la réponse du répondant à l’item?
* Comment se calcule le score total à l’instrument?
* Est-ce que je dois faire Moyenne, somme, score brut, score transformé, etc.
Tests de rendement ou d’aptitudes
- La bonne réponse vaut 1 et les mauvaises valent 0
- 2 points pour la meilleure réponse, 1 point pour une réponse correcte, 0 points pour une mauvaise réponse
- 1 point pour la bonne réponse, -1 pour une mauvaise réponse
- exemple c’est quoi le similaire entre bourgon et bb ? Si tu dis ca commence par B t’as pas tout les points car c’est pas appronfondis comme rep, mais si tu dis c’est le premier stade de l vie tu as tout les points.
Tests de personnalité, d’attitudes, d’intérêt
- Vrai ou faux: 1 ou 0
- Oui ou non: (oui=1, ne sais pas = 0, non = -1
- Échelle de Likert: 1, 2, 3, 4, 5 OU -2, -1, 0, 1, 2
- Choix forcé: 1 ou 0
CORRECTION DES ITEMS À RÉPONSE OUVERTE
- Cotation globale de l’évaluateur: jugement global sur le texte
- Cotation analytique: plusieurs critères déterminent l’évaluation du texte
- Qualification par points: Présence d’une réponse « parfaite » et chaque élément présent vaut un point (des que vous etes ds la liste de critère)
**Il est Impératif que les réponses soient évaluées de la même façon et que les évaluateurs évaluent les réponses de la même façon (fiabilité inter-juge)
EXEMPLE: CORRECTION DES ITEMS À RÉPONSE OUVERTE
MÉTHODES D’ADMINISTRATION
Les méthodes d’administration incluent :
* Les directives aux personnes évaluées ;
* Les conditions d’administration ;
* La cotation (allocation des points).
Lorsque les méthodes d’administration sont observées systématiquement, on les qualifie de standardisées.
CRÉATION D’ITEMS
- L’item doit être conforme à la définition du construit
- L’item doit réduire au maximum l’erreur de mesure (la manière qu’on l’écrit)
- L’item doit utiliser un vocabulaire adapté aux bénéficiaires
- L’item doit pouvoir se répondre avec l’échelle de mesure utilisée
- Prioriser le « je » ca va plus représenter sa personnalité
- Favoriser une formulation affirmative plutôt qu’interrogative
- Éviter de mettre « deux idées » dans un même item
- Éviter les métaphores
- Éviter les items à négations multiples
- Favoriser une formulation claire des items
- Favoriser une formulation concise des items
- Attention aux adverbes
- Varier le sens des items
ITEMS INVERSÉS
- Un item dont la direction est opposée à celle des autres items (du même construit).
- Exemple d’items pour la dépression
- Je me sens déprimé (item normal)
- Je ne me sens pas déprimé (item inversé)
- Je me sens heureux (item inversé)
- Permet de détecter et de contrôler les tendances de réponses
l’évaluation du rendement,
le stimulus est censé être une situation réaliste, comme un problème scientifique, un travail de recherche ou une production artistique.
La réponse passe par la résolution du problème, la réalisation de la recherche ou la production de l’œuvre. L’évaluation du rendement suscite beaucoup d’intérêt en éducation ces temps-ci, où elle apparaît comme une solution de rechange aux évaluations à choix multiples.
La fidélité ne s’intéresse qu’à la
constance et à la reproductibilité de la mesure, sans égard à l’objet que celle-ci est censée mesurer. Une mesure peut être fidèle sans être valide. Par exemple, le test de chimie mentionné plus haut peut être très fidèle, mais mesurer les habiletés mathématiques plutôt que les connaissances en chimie.
L’erreur systématique
augmente ou réduit systématiquement les résultats attendus pour un individu ou un groupe et survient en raison de facteurs étrangers au test. Par exemple, le niveau d’intelligence d’un enfant hispanophone à qui l’on fait passer un test en français. Le niveau d’intelligence de l’enfant sera sans doute sous-estimé, et la sous-estimation sera relativement constante, que l’enfant fasse le test un lundi ou un mercredi. Il y a aussi Sarah qui s’y connaît en matière de tests. Sarah sait déceler les indices qui la mènent à la bonne réponse, même si elle ne maîtrise pas le sujet du test. Elle aura tendance à obtenir un meilleur score que ce que lui permettent ses connaissances, et le jour du test n’y changera pas grand-chose.