DIF TD Flashcards
2 caractéristiques d’un test psychologique
- Standardisation
- Étalonnage
Standardisation
Elle permet de rendre l’évaluation objective : d’éviter de constater que des différences entre les individus
soient influencées par la subjectivité de l’observateur → permettre qu’il y ait un accord sur l’évaluation des
performances entre des observateurs différents.
Étalonnage
L’étalonnage permet d’attribuer un rang aux participants.
Étalonner une distribution consiste à la diviser en classes, donc d’effectuer une transformation de la variable, à partir des effectifs.
Il existe deux grands types d’étalonnage :
1. Quantilage
2. Étalonnage normalisé
Quantilage
Il est fait de façon à avoir X catégories contenant le même effectif.
Il permet de bien discriminer les sujets qui se trouvent au milieu de la distribution (sujets moyens).
En revanche, il permet
moins bien de discriminer les participants aux extrémités.
Étalonnage normalisé
Il est fait de façon à reproduire X classes normalisées représentant une population normale.
Il permet de créer des catégories qui respectent la loi normale (= beaucoup de
sujets au milieu de la distribution et peu aux extrémités).
L’étalonnage normalisé permet de bien discriminer les participants aux extrémités, mais, il permet de moins bien discriminer les personnes au milieu.
Qualités psychométriques d’un test
- Sensibilité
- Fidélité
- Validité
Sensibilité
- Sensibilité des items
Pour qu’un item soit parfaitement discriminant (= sensible), il doit y avoir 50% de bonnes réponses.
Cela permet de parfaitement distinguer ceux qui réussissent à répondre à un item et ceux qui ne réussissent pas. Un item est
dit sensible lorsqu’il se trouve dans un intervalle de 30 à 70% de bonnes réponses.
- Sensibilité du test: On dit qu’un test sensible lorsque cinq points sont réunis
- La distribution doit être symétrique.
- Les indices de centralité (moyenne, mode, médiane) doivent être proches entre eux.
- Les indices de centralité observés doivent être proches des indices de centralité théoriques.
- L’étendue observée doit être proche de l’étude théorique.
- L’écart-type observé doit être supérieur à l’écart-type théorique.
Fidélité
Elle s’intéresse à la reproductibilité du
score.
L’objectif sera d’obtenir un score qui va être au plus près du score vrai de la personne qui répond. En psychologie, tous les scores que l’on observe sont une estimation du score vrai : il y a toujours des erreurs de mesure.
- La différence (∆) entre le score vrai du répondant et le score que l’on observe
sera appelée erreur de mesure.
Le processus d’opérationnalisation du concept permet de mesurer systématiquement la déduction des comportements observables.
La fidélité s’intéresse à donc quelle est la part d’erreur de mesure et la part de score vrai.
Fidélité Test-retest
Le fait d’administrer deux fois le même test aux mêmes participants dans les mêmes conditions afin de calculer le coefficient de stabilité temporelle.
- Forte coefficient de stabilité est plus idéel
On peut à la fois mesurer la stabilité du trait (= du concept) en lui-même, dans un délai long, ainsi que la stabilité de test, dans un délai court.
Fidélité Inter-juge
Permet de calculer la stabilité entre les évaluateurs.
Fidélité des Formes Parallèles
On administre deux
versions du même test pour calculer un coefficient d’équivalence.
- Ideal est d”avoir un haut valeur de coefficient d’équivalence
La corrélation examine la préservation du classement des individus.
Fidélité Interne (consistance interne)
Permet de calculer un coefficient d’homogénéité avec:
- Méthode de bissection(ou split-half): On coupe le test en 2 parties égales et on étudie la corrélation entre ces deux sous-scores pour vérifier que le test est bien homogène et consistant
(= que tous les items mesurent bien la même chose). - L’alpha de Chronbach, qui s’intéresse à la co-variance entre les items. Il essaie de résumer la corrélation qui existe entre les différents items. Il s’agit d’une synthèse des corrélations des items pris deux à deux.
Ainsi, on vérifie que les items de l’échelle se rapportent bien la même dimension. L’alpha de Chronbach prend des valeurs de 0 à 1.
On estime qu’il est satisfaisant à partir de .80 et acceptable à .70
Validité
La capacité du test à mesurer réellement ce qu’il doit mesurer selon l’utilisation que l’on veut en faire.
Elle renvoie à la pertinence de la mesure.
Pour vérifier la validité d’un test d’intelligence, on va essayer de voir s’il corrèle avec un autre test d’intelligence.
On s’attend donc à une corrélation modérée et positive.
Correlation
Elle est un lien non causal entre deux variables.
Interpréter une corrélation:
➢ Sens de la corrélation = Orientation du nuage de point.
- Corrélation positive = nuage de point ascendant.
- Corrélation négative = nuage de point descendant.
➢ Force de la corrélation = Aplatissement/dispersion du nuage de point.
- Corrélation forte : nuage aplati
- Corrélation faible : nuage de point éclaté
Indice de centralité : moyenne, mode, médiane
Indice de dispersion : minimum, maximum, étendu, écart type
Tous ces indices, sauf l’écart-type, doivent être égale aux valeurs théoriques.
L’écart-type doit être un peu plus élevé.
Effet planché : notes plutôt basses, courbe asymétrique à droite, test trop difficile
Effet plafond : notes plutôt hautes, courbe asymétrique à gauche, test trop simple
Théorie Bifactorielle
Un facteur commun entre les deux tests.
Existence d’un facteur g.
Théorie Multifactorielle
Facteurs indépendant.
Existence de plusieurs facteurs indépendant.
Le Test Différentiel d’Aptitude (Dat)
Révisé en 2002, le DAT de Bennett, Seashore et Wesman s’inscrit pour les adolescents dans une approche multidimensionnelle de l’intelligence en décrivant 8 aptitudes intellectuelles fondamentales et indépendantes :
- Raisonnement abstrait : Mesure la capacité de raisonnement non-verbal
- Raisonnement verbal : Mesure l’aptitude à comprendre des concepts verbaux, la capacité d’abstraction ou de généralisation
- Raisonnement numérique : Mesure la compréhension des relations numériques et la facilité à manier des
concepts numériques. - Raisonnement mécanique : Mesure les capacités de compréhension des principes mécaniques et physiques.
- Vitesse de perception et précision : Mesure la rapidité et l’exactitude de réponse d’un élève dans une
tâche perceptuelle simple, faite de combinaisons de nombres et de lettres. - Relations spatiales : Met en jeu structuration et spatialisation qui évaluent l’aptitude à penser en termes
d’espace. - Orthographe et grammaire : Épreuves d’acquisition.
Il s’agit d’un test de difficulté croissante.
De plus, dans certains items, on retrouve des distracteurs (= pièges), permettant d’attirer le participant vers les mauvaises réponses
Il existe différentes stratégies de réponse.
Le BV11
Le BV11-A fait par Bonnardel date de 1978 et se compose, au total, de 59 séries de six mots, dont 3 sont des
exemples.
Le but de ce test est de découvrir le mot dont la signification diffère des 5 autres mots de la série.
= Ce test évalue donc la compréhension du vocabulaire.
Ce test d’intelligence est de difficulté croissante.
On retrouve la présence de distracteurs.
Il y a plusieurs stratégies possibles pour répondre, selon les participants et selon les items.
Test PM38 de Raven
Il s’inscrit dans la théorie factorielle de l’intelligence.
Il s’agit d’un test de facteur(structure bi-dimensionnelle de l’intelligence)
Chaque test comporte une
part de facteur g et une part spécifique(+/- corrélés avec ce facteur g).
Ils ont donc une part de facteur spécifique plus ou moins grande. Le PM38 a été choisi pour illustrer ce modèle factoriel car il est très bien corrélé avec le facteur g.
L’objectif: Mesurer l’aptitude à appréhender des figures sans signification définie, à saisir les relations qui existent entre elles, à concevoir la nature de la figure complétant chaque système, et, ce faisant,
de mesurer la capacité à développer un système de raisonnement.
Composition de Test PM38 de Raven
Il est composé de 5 séries(A, B, C, D, E) de 12 problèmes.
Chaque série commence par un problème simple qui permet d’introduire une façon de raisonner qui se complexifiera au fur et à mesure de la série :
- La série A est une série perceptive, qui mesure l’aptitude du sujet à compléter des patterns continus.
- La série B s’intéresse à la prégnance de la forme (= à la symétrie). Elle mesure le raisonnement analogique pour voir si l’individu est capable, ou non, de faire un raisonnement de type abstrait.
- La série C est une série de nombre et de la progression (additions ou des soustractions de figures)
- La série D est une série combinatoire.
- La série E est aussi une série combinatoire au niveau formel (= structure de la forme).
Validité du Protocole
Consiste à vérifier si les réponses du sujet sont valides.
On regarde si les différents scores du sujet aux différentes séries ne s’éloignent pas du score normal.
En effet, on a des matrices progressives(=difficultés croissantes)
On compare les scores observés aux notes probables.
- Si les scores s’éloignent de plus de 2 points de déviation par rapport à la note probable, on ne peut
pas considérer que la note totale soit une estimation valide des capacités générales du participant.
On peut essayer de comprendre d’où viennent ces écarts, mais le score global ne pourra pas être interprété.
Le score du sujet ne permet pas de mesurer son intelligence générale.
Ce n’est pas car le sujet a un score invalide que le test est invalide en lui-même :
Il y a une différence entre la validité du protocole et la validité du test.
La note brute, obtenue par un sujet, ne prend sa signification que par rapport au score obtenu par les sujets de la population
définie (étalonnage)
Analyse des Erreurs
Dans le cas où le score n’est pas normal, l’analyse des erreurs permet d’étudier les difficultés du sujet.
Cela nous permet d’aller plus loin que le score total pour comprendre le fonctionnement du sujet.
Il existe quatre types
d’erreurs:
1. L’erreur de différence
2. L’erreur de corréla-incomplet ou approximatif
3. L’erreur de mauvais principe ou individualisation inadéquate
4. L’erreur de répétition du pattern
L’erreur de Différence
Distracteur choisi va avoir une apparence différente des autres choix
L’erreur de corréla-incomplet ou approximatif
Le distracteur choisi va être souvent correct mais pas
toujours (bonne forme mais texture fausse)
L’erreur de mauvais principe ou individualisation inadéquate
Le distracteur est une copie ou une composition des éléments de la matrice.
L’erreur de répétition du pattern
Le distracteur choisi est une copie des entrées de la matrice. Les distracteurs sont identiques aux formes juste à côté de la partie manquante. Si le sujet reste bloqué sur ces entrées, sans les transposer, alors il fera ce type d’erreur.
Stratégie de Résolution du Test
- La stratégie globale ou figurative :
Les images de la figure vont être prolongées mentalement.
Les opérations
mentales s’appliqueront donc sur le contenu visuel.
La matrice est considérée comme un tout.
Il va y avoir à la fois des opérations simples de continuation mais également des opérations plus complexes dans lesquelles
il faudra étendre à la partie manquante les propriétés globales du pattern perçu, ou opérer une superposition de configuration isolée. - La stratégie analytique ou logique :
Cette stratégie consiste à dénombrer les éléments figurants à chaque intersection. Les données du problème sont un ensemble organisé de propriétés construites par abstraction. Le pattern de la figure va être un ensemble d’éléments individualisés où les propriétés ont été dégagées par analyse.
Les intersections vont être vues comme des cases de la matrice.
Hunt a analysé 12 items, appartenant à la série initiale. Il considère que la moitié des items pouvait être réussis par les deux stratégies, l’une relevant plutôt d’une attitude spatiale et l’autre relevant
directement de l’attitude à l’éducation de relation (facteur g). Il va montrer que les sujets réussissant le mieux vont utiliser une stratégie analytique.
Qualité Psychométriques sur Test PM38
Pour la sensibilité de ce test, les premiers items de chaque série sont plus simples afin d’introduire la stratégie
de raisonnement.
Pour la fidélité, on peut voir que le test est stable à travers le temps, car il s’agit d’un test d’intelligence.
Pour la validité, on peut voir qu’il y a une corrélation positive et forte, mais observée entre les différentes mesures de l’intelligence.
Qualité psychométriques des matrices progressives:
➔ Sensibilité, fidélité dans le temps, validité convergente, validité prédictive, validité factorielle
Les Matrices Progresive de Raven (Progresive Matrice)
Raven s’est appliqué à mettre au point des épreuves ayant un fondement théorique, interprétables sans
ambiguïté, faciles à administrer et à coter, utilisables tant pour la recherche en laboratoire que sur le terrain, et d’emploi commode dans des enquêtes menées à domicile, dans les écoles et sur les lieux de travail où le temps est nécessairement limité.
Matrices de Raven permettent de mesurer l’aptitude actuelle d’un individu à percevoir et à penser clairement, d’une manière relativement indépendante des facteurs culturels et de l’aptitude verbale.
L’ordre dans lequel les items sont présentés permet un entraînement progressif et
standardisé à la méthode de résolution puisque les items sont de difficulté croissante, d’où le nom de Matrices
Progressives.
Les derniers items de chaque série sont résolus grâce à l’expérience acquise en essayant de résoudre les premiers problèmes de la série.
Notion de Facteur G
Pour schématiser l’organisation des conduites cognitives, les psychologues anglais, Spearman, Burt et Vernon utilisent des facteurs d’intelligence présentant un degré décroissant de généralité.
–> Elle indique un processus psychologique commun appelé facteur général (g).
Les tests destinés à le mesurer, dits tests de facteur g, sont des tests de raisonnement inductif sur des contenus figuratifs sans signification particulière.
Selon les tests, le poids du facteur g est plus ou moins important, car il intervient aussi un facteur propre à la situation, c’est-à-dire un facteur spécifique.
Théorie Mutli-fonctorielle de l’Intelligence de Thurstone
Thurstone postule l’existence de plusieurs facteurs indépendants.
1. Signification Verbale(V)
2. Aptitude Spatiale(S)
3. Raisonnement(R)
4. Aptitude Numérique(N)
5. Fluidité Verbale(W)
Thurstone analyse les inter-corrélations d’un large ensemble de tests et trouve plusieurs facteurs qu’il considère comme des aptitudes indépendantes : les aptitudes primaires, PMA (Primary Mental Abilities)
Signification Verbale(V)
L’aptitude à comprendre les idées exprimées par des mots.
On évalue la maîtrise et la finesse de discrimination verbale.
La difficulté est croissante.
Le sujet dispose de 4 minutes pour le faire.
Le score obtenu est le nombre de bonnes réponses (score max = 50).
Aptitude Spatiale(S)
L’aptitude à se représenter des objets dans deux ou trois dimensions.
Elle est décrite comme l’aptitude à imaginer comment un objet/dessin apparaîtra lorsqu’il aura subi une rotation, et à saisir les relations spatiales d’un arrangement d’objets.
On évalue l’efficient des relations spatiales.
La difficulté est croissante.
La limite de temps est de 5 minutes.
Le score obtenu est le nombre de bonnes réponses soustrait au nombre d’erreurs (score max = 54).
Raisonnement(R)
L’aptitude à résoudre des problèmes logiques.
C’est l’une des plus importantes aptitudes mentales.
Les personnes ayant une bonne aptitude au raisonnement peuvent analyser une situation sur la base de l’expérience passée, faire des plans et les mener à bonne fin en tenant compte de faits constatés.
On évalue l’efficience des processus d’inférence.
La difficulté est croissante.
Le sujet dispose de 6 minutes pour le faire.
Le score obtenu est le nombre de bonnes réponses (score max = 30).
Aptitude Numérique(N)
L’aptitude à travailler avec des chiffres / résoudre des problèmes quantitatifs.
C’est une aptitude faciles à mettre en évidence car elle comporte principalement la rapidité et l’exactitude dans
le maniement des nombres.
On évalue l’aisance dans le maniement des nombres.
La limite de temps est de 6
minutes.
Le score obtenu est le nombre de bonnes réponses moins le nombre d’erreurs (score max = 70).
Fluidité Verbale(W)
L’aptitude à fournir des mots aisément et rapidement.
Elle concerne la rapidité et l’aisance avec laquelle les mots peuvent être utilisés, plutôt que le degré de compréhension des concepts verbaux.
La limite de temps est de 5 minutes.
Le score s’exprime en termes du nombre de mots corrects trouvés.