Méthodes des tests 4INIA Flashcards
2 types d’étalonnage
- échelle normalisée
- quantilage
Etalonnage:
c’est quoi et pourquoi l’utiliser?
=construire une échelle de notation std à partir des résultats d’un échantillon représentatif d’une population de référence
-permettre la comparaison avec les autres sujets issus d’une pop de réf
échelle normalisée?
- les classes sont définies de sorte que les effectifs soient conformes aux fréq de distribution théoriques de Laplace-Gauss (normale)
- les notes brutes sont transformées en notes z (std)
- moy 0, écart-type 1 et 95% des eff se trouvent dans la zone +/- 2 écarts-type.
- permet une étude affinée des notes extrèmes
validité d’un test?
le test mesure bien ce qu’il est censé mesurer
3 sortes de validités
- de contenu
- théorique
- critérielle (un test doit corréler avec un critère/une autre variable jugée intéressante)
2 types de validité critérielle
- concurrente/concomitante (le mesure du prédicteur et celle du test se font en même tps)
- prédictive (un intervalle de tps sépare la mesure du prédicteur et celle du critère): le test devient prédicteur sur un autre critère
3 qualités métrologiques d’un test
- sensibilité (bonne discrimination des individus)
- fidélité/fiabilité
- validité (le test mesure bien ce qu’il est censé mesurer)
4 façons de fiabiliser un test
- test-retest (stabilité)
- forme parallèle (coeff d’équivalence)
- split-half (coeff d’homogénéité ou cohérence interne)
- 2 personnes évaluent la même conduite (standardisation)
Le test-retest (répéter le test à un autre moment, au même grp d’indiv)
- permet de calculer le coeff de constance (ou de stabilité)
- nous renseigne sur le poids des erreurs aléatoires si le tps entre les 2 est court (=fidélité)
- risque de biais (connaissance du test par les sujets)
- coeff de Bravais-Pearson (proche de 1 -> test OK)
quantilage
- faire une distribution en note z
- construire 4 classes (quartiles), 10 (décilage) ou 100 (centilages), en mettant le même nb d’individus ds chq classe
- permet de comparer les individus
2 types d’erreur de mesure
qui affectent la fidélité/fiabilité
- erreurs systématiques
- erreurs aléatoires
- > calculer le coeff de fidélité (corrélation entre une série de mesures et sa répétition peu de tps après)
pourquoi calculer la corrélation entre chq item et le test?
- vérifier que les items sont bien choisis et sont cohérents à la dimension étudiée
- vérifier que les items appartiennent bien tous à la même dimension
- si c’est OK on peut les sommer pour obtenir un score global
- sinon on peut éliminer ou modifier un item
Méthodes pour savoir s’il est justifié de calculer un score global (3)
- indice de discrimination de l’item (il faut des items de difficulté moyenne pour bien discriminer les sujets)
- corrélation item/test
- corrélation inter-items (2 à 2): si elle est trop forte, les items mesurent la même chose, trop faible: remise en cause de la sommation des items
standardisation des tests: pourquoi?
pouvoir comparer les sujets en enlevant les aléas de la situation et la subjectivité de l’observateur
4 sortes d’observation
- libre descriptive (exploratoire)
- systématique (grilles d’obs, conditions définies et scient.)
- provoquée (expérimentation)
- contrainte (=tests standardisés)