Psychométrie Exam 1 Flashcards
Principales catégories de tests (5)
- Tests d’aptitudes intellectuelles
- Tests de rendement
- Tests de personnalité
- Mesure des intérêts et des attitudes
- Tests neuropsychologiques
Sous-catégories de tests d’aptitudes intellectuelles (3)
- Individuels
- Collectifs
- Autres aptitudes
Sous-catégories de tests de rendement (5)
- Batteries de tests
- Sujet unique
- Certification, diplômes et brevets
- Programmes parrainés par le gouvernement
- Tests individuels de rendement
Sous-catégories de tests de personnalité (3)
- Tests objectifs
- Techniques projectives
- Autres méthodes
Sous-catégories de mesure des intérêts et des attitudes (2)
- Inventaires des intérêts professionnels
- Échelles d’attitudes
Principaux secteurs dans lesquels les tests sont utilisés (4)
- Clinique
- Éducation
- Gestion du personnel
- Recherche
4 hypothèses fondamentales du domaine de la psychométrie
- Les êtres humains se distinguent par des traits ou caractères importants
- Ces traits peuvent être quantifiés
- Ces traits sont assez stables
- Les mesures de ces traits sont liées au comportement
Période de l’histoire: Le passé lointain
Jusqu’à 1840
Période de l’histoire: La mise en place
1840-1880 Intérêt accru envers la maladie mentale Adoption des examens écrits Influence des travaux de Darwin Naissance de la psychologie expérimentale
Période de l’histoire: L’enracinement
1880-1915
Période de l’histoire: L’essor
1915-1940
Période de l’histoire: La consolidation
1940-1965
Période de l’histoire: Le passé récent
1965-2000
Période de l’histoire: La période actuelle
2000-aujourd’hui
10 tests mentaux de Cattell (période de l’enracinement)
- Pression dynamométrique (préhension)
- Vitesse du mouvement
- Zones sensitives
- Pression douloureuse
- Seuil différentiel de poids
- Temps de réaction auditif
- Temps de dénomination des couleurs
- Bissection d’une ligne de 50 cm
- Évaluation d’une période de 10 secondes
- Nombre de lettres mémorisées après 1 seule écoute
Relation entre les ordinateurs et la psychométrie (3)
Dépouillement statistique
Relevé des résultats
Administration du test
Principales sources de développement de la psychométrie actuelle (6)
- Impulsion scientifique
- Préoccupation envers l’individu
- Applications pratiques
- Méthodologie statistique
- Croissance de la psychologie clinique
- Utilisation des ordinateurs
Éléments de la définition d’un test (6)
- Méthode ou outil
- Fournit de l’information
- Information comportementale ou cognitive
- S’applique à un échantillon de comportements ou de processus cognitifs
- Standardisé
- Quantifié
Autre type de classement des tests (5)
- Test papier-crayon ou test de performance
- Test de vitesse ou de puissance
- Test individuel ou collectif
- Test de performance maximale ou de performance type
- Interprétation normative ou critériée
Les 3 questions ou préoccupations fondamentales de la psychométrie
- La fidélité = stabilité d’une mesure
- La validité = ce que le test mesure réellement
- Les normes = le cadre d’interprétation des résultats du test
Les 7 grandes périodes de l’histoire de la psychométrie dans l’ordre du plus vieux au plus récent
Jusqu'à 1840 - Le passé lointain 1840-1880 - La mise en place 1880-1915 - L'enracinement 1915-1940 - L'essor 1940-1965 - La consolidation 1965-2000 - Le passé récent 2000-aujourd'hui - La période actuelle
Définition à 6 éléments du test
Le test est une méthode ou un outil standardisé qui fournit de l’information sur un échantillon de comportements ou de processus cognitifs sous une forme quantifiée.
2 questions courantes sur les tests
- Comment obtenir de l’information sur un test donné?
- Quels sont les tests existants pour un objectif donné?
9 principales sources d’information sur les tests
- Répertoires de tests publiés ou non publiés
- Séries périodiques de comptes rendus critiques des tests publiés
- Répertoires électroniques
- Recueils spécialisés
- Ouvrages consacrés à un test en particulier
- Manuels de psychométrie
- Revues scientifiques
- Catalogues d’éditeurs
- Utilisateurs de tests
2 sources principales de comptes rendus critiques de tests
- Mental Measurements Yearbook (MMY)
- Test Critiques
2 problèmes courants motivent l’utilisation d’une variété de sources d’information sur les tests
- Trouver de l’information sur un test en particulier
- Obtenir une liste de tests conçus à une fin précise
4 distinctions importantes sur la fidélité
- La fidélité comparée à la validité
- Le sens couramment utilisé comparé au sens technique
- Le changement réel comparé au changement temporaire
- Les erreurs systématiques comparées aux erreurs aléatoires
Qu’est-ce qu’une distribution bivariée?
Diagramme de dispersion, nuage de points
Variable X en abscisse et Variable Y en ordonnée
r = +1,00
Relation linéaire positive parfaite
r = -1,00
Relation linéaire négative parfaite
r = 0
Absence de relation entre les 2 variables
Comment interpréter les variations / différents coefficients de corrélation?
Tous les coefficients de corrélation peuvent être interprétés à peu près de la même façon que celui de Pearson, à quelques exceptions près.
Autres types de coefficients de corrélation que celui de Pearson (ne pas apprendre par coeur)
- r bisériale
- r bisériale de point
- r tétrachorique
- r phi
- Coefficient de contingence
- Coefficient de corrélation de rang
- Coefficient de corrélation interclasse
- Êta
- Coefficient de corrélation de Spearman
- Kappa
- Coefficient de Kendall
Formule de la droite de régression
Y’ = bX + a
où
b = pente de la droite de régression
a = ordonnée à l’origine
À quoi sert le signe prime (‘) dans la formule de la droite de régression?
Indique qu’il s’agit d’une prédiction et non d’une donnée connue
Fonction de la droite de régression
Droite qui parvient le mieux à montrer la relation existant entre des points de données pour 2 variables, dans le but de prédire un score Y d’après celui de X.
Erreur type d’estimation
On suppose qu’il y a une distribution normale d’Y équivalente pour chaque valeur de X le long de la courbe d’estimation ; probabilité qu’un certain nombre de scores soient différents des scores prévus.
Formule de l’erreur type d’estimation
ETEy’ = ÉTy [racine carrée] (1-r2xy)
où
ÉTy = écart type pour le test que concerne la prévision
rxy = corrélation entre le test pour lequel on fait une prédiction et celui à partir duquel on la fait
4 facteurs influant sur les coefficients de corrélation
- La linéarité
- L’hétérocédasticité
- La position relative (et non absolue)
- L’hétérogénéité du groupe
Comment fonctionnent les corrections pour la restriction de l’étendue?
Elles permettent d’ajuster r en fonction d’une variabilité accrue ou moindre du groupe.
Permet d’estimer r dans un groupe plus hétérogène à partir du r obtenu dans un groupe plus homogène
OU INVERSEMENT
Permet d’estimer r dans un groupe plus homogène à partir du r obtenu dans un groupe hétérogène
Effets des corrections pour la restriction de l’étendue
- Effets plus importants lorsque la variabilité est beaucoup plus faible dans le groupe homogène que dans le groupe hétérogène
- Effets plus prononcés sur les corrélations modérées
- Très peu d’effets sur les corrélations très faibles ou très fortes
- Jamais de changement sur le sens de la relation
Principales sources d’erreur de mesure occasionnant des problèmes de fidélité (4)
- Type de correction du test
- Contenu du test
- Conditions d’administration du test
- Circonstances personnelles
Qu’est-ce que le score vrai?
Le score vrai (V) d’une personne est celui qu’elle obtiendrait au test si toutes les sources d’erreur de mesure qui sont associées à un problème de fidélité étaient supprimées de son score observé.
Qu’est-ce que l’erreur de mesure?
L’erreur de mesure (E) est la différence entre le score vrai et le score observé. Elle peut être positive ou négative. Elle représente la somme de toutes les influences aléatoires susceptibles de compromettre la fidélité de mesure.
Quelle est la formule de l’erreur de mesure?
V = O +/- E où V = Score vrai O = Score observé E = Erreur de mesure
On peut aussi exprimer l’erreur de mesure en termes de variance. Quelle est la formule?
Sigma vrai au carré = sigma observé au carré - sigma erreur de mesure au carré
La variance du score observé est la somme de la variance du score vrai et de celle de l’erreur de mesure.
Comment définir la fidélité (r) à partir de la variance?
r = sigma vrai au carré / sigma observé au carré
c’est-à-dire
selon la proportion de la variance observée qui relève de la variance vraie.
Comment sont normalement distribués les scores observés autour du score vrai?
On présume habituellement que les scores observés sont normalement distribués autour du score vrai.
Quelles sont les méthodes servant à déterminer la fidélité? (4)
- Test-retest
- Interjuges
- Versions parallèles
- Cohérence interne (homogénéité)
Comment vérifier la fidélité par test-retest?
Par l’administration du même test aux mêmes personnes à 2 occasions, généralement à une journée ou à un mois d’intervalle
Comment appelle-t-on aussi le coefficient de fidélité?
C’est la corrélation entre les scores obtenus la première et la seconde fois (généralement Pearson.
Souvent appelé “coefficient de stabilité”.
Quelles fluctuations la méthode test-retest permet-elle de relever?
Elle évalue l’influence des fluctuations de la condition physique et mentale des candidats. Elle ne s’intéresse pas au contenu du test (le contenu est le même aux 2 temps d’administration).
La méthode peut aussi cibler, mais pas forcément, des variations liées à la façon dont le test est administré, des variations entre évaluateurs, etc.
Quels sont les 3 inconvénients principaux de la méthode test-retest?
- Ne tient pas compte des erreurs aléatoires attribuables aux variations du conteny
- À moins d’un test simple et court, le test est difficilement applicable (trop long pour intervalle si courte)
- Effet du premier test sur la reprise
Qu’est-ce que la fidélité interjuges évalue?
Les variations aléatoires attribuables aux personnes qui corrigent le test.
Comment procéder pour vérifier la fidélité interjuges?
Faire corriger 2 fois les copies d’un test auquel ont répondu un groupe de candidats. Le coefficient de fidélité est tout simplement la orrélation (habituellement une corrélation de Pearson) entre les scores attribués par le premier et le second évaluateur.
Il est important que les évaluateurs travaillent séparément pour ne pas s’influencer mutuellement.
Quoi faire si on a plus de 2 évaluateurs?
L’analyse la plus indiquée est le coefficient de corrélation interclasse, calculé à partir des carrés moyens développés dans une analyse de variance. Le CCI est interprété comme le coefficient de corrélation de Pearson (r).
Qu’est-ce que la méthode des versions parallèles (ou méthode des formes équivalentes)?
Administrer aux mêmes candidats 2 versions d’un test équivalentes ou très semblables (nombre d’items, limite de temps allouée, spécifications de contenu, autres facteurs).
La fidélité est obtenue en calculant la corrélation (habituellement Pearson) entre les scores obtenus aux 2 versions. ==> Coefficient d’équivalence
Quel est l’intervalle approprié entre les 2 versions dans la méthode des versions parallèles?
L’un à la suite de l’autre si les versions sont courtes, sinon un intervalle semblable à celui du test-retest.
Quand le test est plus long, la méthode évalue non seulement les erreurs de mesure attribuables au contenu mais aussi aux fluctuations de la condition physique et mentale et aux conditions d’administration du test.
Qu’est-ce que la cohérence interne?
L’une des méthodes d’estimation de la fidélité les pus fréquemment utilisées.
Elle est déterminée avec 3 méthodes plus répandues:
-Bissection
-Formules de Kuder-Richardson
-Coefficient alpha
Cela produit un coefficient de fidélité sous forme de corrélation. ==> Coefficient de cohérence interne
Qu’est-ce que la méthode de la bissection (ou moitié-moitié)?
Version réduite des versions parallèles. Administration d’un seul test, dont on corrige les 2 moitiés comme si chacune était une version différente du test et on corrèle les scores de chaque moitié.
Pour éviter différentes sources d’erreur, on tend à diviser le test selon les items pairs-impairs et on désigne le résultat sous le terme de coefficient de fidélité pair-impair.
Comment faire pour appliquer le résultat de la méthode de bissection au test complet?
Il faut faire une correction à la corrélation calculée entre les 2 moitiés du test pour connaître la fidélité du test en entier: c’est la correction de Spearman-Brown.
La correction générale sert à estimer l’effet d’un changement apporté à la longueur du test sur la fidélité de la cohérence interne.
Que sont les formules de Kuder-Richardson?
Pour obtenir d’autres mesures de cohérence interne, les formules KR-20 et KR-21 sont répandues.
La formule KR-20 permet d’obtenir la corrélation moyenne pour toutes les bissections possibles du test.
La formule KR-21 simplifie la KR-20 en supposant que tous les p (pourcentage de réponses correctes) (hypothèse irréaliste)
Les formules ne s’appliquent qu’à des items à échelle dichotomique.
Qu’est-ce que l’alpha de Cronbach?
Contrairement aux formules KR, l’alpha de Cronbach n’a pas la contrainte de l’échelle dichotomique.
Il est alors possible de voir chaque item comme une version réduite du test, comment chacune de ces miniformes est cohérente avec toutes les autres miniformes du test.
Définition d’un test psychologique
Le test est une méthode ou un outil standardisé qui fournit de l’information sur un échantillon de comportement ou de processus cognitif sous une forme quantifiée.
Caractéristiques du Passé lointain
- Origine et influence de la philosophie
- Aristote, Platon, Thomas d’Aquin
- Définir les traits communs chez les êtres humains
- Traité de l’âme (Aristote) - premier manuel de psychologie
- Renaissance: éveil de l’intérêt individuel, mais surtout artistique
- L’examen oral est la méthode d’évaluation la plus courante
- Les penseurs de l’époque ne cherchaient pas à voir les différences individuelles, ils cherchaient à définir les traits communs de l’humanité
- Distinction individuelle de la renaissance surtout dans l’art
- Pas encore de papier crayon, plus des tests oraux, des démonstrations
Caractéristiques de la Mise en place
Grandes tendances
- Intérêt envers la maladie mentale (Pinel, Tuke, Rush), première méthode diagnostique
- Adoption des examens écrits (Horace Mann)
- Influence des travaux de Darwin (la filiation de l’homme et la sélection liée au sexe, l’expression des émotions chez l’homme et les animaux)
- Naissance de la psychologie expérimentale (Wundt, Laboratoire Université de Leipzig à Berlin)
- Premières classifications genre DSM, SIM
- Avant qu’on arrive à des classifications du genre, chacun qui s’intéressait à ça créait son propre petit volume ; précurseurs des premières évaluations diagnostiques
- Mann trouvait les évaluations orales trop subjectives, il tente d’amener le test écrit
- Darwin: observable, quantifiable
Que peut-on observer en calculant avec l’alpha de Cronbach?
La fidélité s’accroît avec le nombre d’items.
L’augmentation de la corrélation moyenne interitems correspond à celle de la fidélité.
L’alpha est tributaire de la corrélation moyenne interitems.
Le nombre d’items est déterminant.
On décrit parfois l’alpha de Cronbach comme une mesure de l’homogénéité des items.
Pris individuellement, les items ne sont pas très fidèles.
À quels tests les diverses mesurent de cohérence interne ne conviennent-ils pas?
Elles sont inappropriées pour les tests de vitesse et certains tests de puissance (qui sont plus ou moins chronométrés).
La vitesse influe sur les résultats, la mesure de la cohérence interne produit une estimation gonflée de la fidélité.
Il vaut mieux recourir à une autre méthode pour mesurer la fidélité.
Quelles sont les méthodes pour déterminer la fidélité?
- Test-retest
- Interjuges
- Versions parallèles
- Cohérence interne (homogénéité)
Quelles sont les 3 conclusions importantes tirées de l’examen des formules de mesure de la cohérence interne?
- La durée du test est importante (nombre d’items) ; généralement, test long = fidélité plus élevée
- La fidélité est maximisée quand le pourcentage de candidats qui répondent correctement au test est de 0.50
- La corrélation entre les items est importante ; pour obtenir une grande fidélité par cohérence interne, il faut utiliser des items qui mesurent un trait bien défini
Qu’est-ce que l’ETM?
L’erreur type de mesure est l’écart type d’une nombre théorique infini de scores obtenus avoisinant le score vrai d’une personne.
On l’utilise pour faire une interprétation pratique (notamment de la fidélité).
Quelle est l’ETM si la fidélité du test est nulle (0.00)?
L’ETM est l’écart type du test.
Intervalle de confiance
On peut recourir à l’ETM pour créer un intervalle de confiance autour du score observé. Puisque l’ETM est l’écart type d’une distribution présumée normale, toutes les relations d’usage s’appliquent.
Ex: 68% des cas ont un score vrai entre -1 et +1 [à +/- 1 ETM du score vrai]
*ETM de +/- 1.96 ==> 95%
*ETM de +/- 2.58 ==> 99%
Quelle est l’unité de mesure appropriée aux scores pour l’ETM?
L’ETM devrait être exprimée selon l’unité de mesure utilisée pour l’interprétation.
Quels sont les 3 sortes d’erreurs types à ne pas confondre?
Les 3 sont des écarts types mais ne concernent pas la même chose.
- Erreur type de mesure (scores observés autour du score vrai)
- Erreur type de la moyenne (attribuable à un échantillonnage aléatoire)
- Erreur type d’estimation (estimation d’Y à partir de X)
Comment analyser la fidélité dans la théorie de réponse à l’item?
Comme l’alpha de Cronbach, l’analyse repose sur le fonctionnement des items du test. Toutefois, les items sont interdépendants.
L’erreur type se présente comme un indice de la précision de la mesure et est déterminée pour chaque score (contrairement à la théorie classique)
Qu’est-ce que la théorie de la généralisabilité?
Elle tente d’évaluer simultanément plusieurs sources d’erreur (notamment en fidélité).
Elle cherche à déterminer dans une seule étude la fidélité de tests passés à plusieurs occasions, en plusieurs versions et corrigés par plusieurs évaluateurs.
Procède avec l’analyse de la variance.
Elle permet d’estimer la fidélité d’une occasion à l’autre (comme test-retest), entre les tâches (comme versions parallèles) et entre les juges (comme interjuges).
Difficile à appliquer en pratique.
Facteurs influant sur les coefficients VS fidélité
- Position relative au lieu de scores absolus = pas une préoccupation pour la fidélité
- Curvilinéarité = n’influence pas la fidélité
- Hétérocédasticité = peut causer problème pour l’ETM
- Hétérogénéité du groupe = pose souvent problème dans l’interprétation des données (formules pour corriger)
Quel degré de fidélité devrait-on viser?
Ça dépend de l'intention. Selon le consensus: -0.90 = excellent -0.80 à 0.89 = bon -0.70 à 0.79 = adéquat -0.60 à 0.69 = devrait seulement être utilisé en recherche -Moins de 0.60 = utiliser un autre test
Quels sont les suppléments d’information sur le taux de fidélité qu’on devrait rechercher? (5)
- Voir si plus d’une source d’erreur évaluée (pas seulement cohérence interne ou encore test-restest)
- Comparer les scores et leur différence est moins fidèle que la fidélité des scores eux-mêmes
- La fidélité est toujours importante, peu importe ce qui en est dit
- Se fier au coefficient et non à la longueur du test (test court = généralement peu fidèle, se méfier si on dit le contraire)
- Le coefficient seul n’est pas forcément très utile, il y a des standards plus élevés que juste atteindre un seuil statistique.
Qu’est-ce que la validité?
Degré auquel un test mesure ce qu’il prétend mesurer.
On définit la validité d’un score obtenu dans un test par rapport à un usage particulier.
La validité est l’aspect le plus fondamental de l’élaboration et de l’évaluation des tests.
Pourquoi faire la distinction entre validité et exactitude des normes?
Il est possible qu’un test soit valide, mais que ses normes soient déficientes ou inversement.
Qu’est-ce qu’un construit?
Trait ou variable psychologique, construction théorique.
La partie du construit qui n’est pas recouverte par le test dans les intersections de carrés s’appelle la sous-représentation du construit.
La partie du test non recouverte par le construit est la variance non reliée au construit.
À quoi consiste l’enjeu fondamental? (validité)
Consiste à fournir une preuve que le ou les scores obtenus à un test sont révélateurs du trait ou du construit à l’étude. C’est sur cette preuve que s’appuie l’interprétation de ces scores.
Quel est le classement traditionnel des types de validité? (3)
- Validité de contenu
- Validité critériée
- Validité concomitante (validité prédictive et validité de construit)
Quel est le nouveau classement des types de validité? (5)
- Validité de contenu
- Relations avec les autres variables (validités convergente et divergente ou discriminante et relations avec les critères du test)
- Processus de réponse
- Structure interne
- Conséquence
Qu’est-ce que la validité d’apparence?
Le test semble mesurer le construit souhaité.
Il est toutefois impossible de déterminer le degré de validité d’un test simplement en le regardant, il faut l’appui de la validité empirique.
Qu’est-ce que la validité de contenu?
Pour que le contenu d’un test soit valide, il doit bien correspondre au contenu du domaine étudié.
L’application de la validité de contenu implique souvent la notion d’échantillonnage.
L’établissement de la validité de contenu commence par une définition rigoureuse du contenu à couvrir ; ensuite, comparer le contenu du test au tableau de spécifications.
Quelles sont les 2 applications principales de la validité de contenu?
-Les tests de rendement scolaire
-Les tests d’aptitude professionnelle
L’objectif eset de déterminer le degré auquel le contenu du test correspond au contenu de la matière scolaire ou de l’emploi visé.
Qu’est-ce que la validité didactique?
Elle est une application particulière de la validité de contenu. Elle permet de savoir si le contenu a bel et bien été enseigné, s’il y a eu “occasion d’apprendre”.
Quels sont les problèmes associés à la validité de contenu?
- Difficile de définir clairement le domaine des items
- Évaluation du degré auquel les items du test couvrent les éléments des spécifications du contenu
- La validité de contenu ne fait pas référence aux résultats réels du test (aucun indice sur les interactions des personnes évaluées avec le test)
Qu’est-ce que la validité critériée?
Elle définit la relation entre les résultats au test et un autre critère considéré comme un important indicateur du construit à l’étude.
Quelles sont les 3 applications courantes / démarches communes de la validité critériée?
L’utilisation:
- d’un critère réaliste externe définissant le construit à l’étude
- de groupes contrastés
- d’un autre test
Quels sont les 2 contextes généraux de la validité critériée?
-Validité prédictive = test vise à prédire la valeur que prendront les critères à l’avenir (ex. test d’admission)
-Validité concomitante = concerne la concordance entre les résultats à un test et la valeur actuelle d’autres variables
La différence: le moment de l’évaluation de la variable critère.
Qu’est-ce que la démarche du critère réaliste externe? (validité)
Un critère externe donne une définition réaliste du construit à l’étude. C’est le sujet sur lequel on souhaite vraiment avoir de l’information (ex. moyenne générale à la fin de la première année)
On veut prédire la position d’une personne par rapport au critère.
==> Validité sous forme de coefficient de corrélation (Pearson) = coefficient de validité
Qu’est-ce que la démarche des groupes contrastés? (Validité)
Le critère est la composition du groupe. On souhaite démontrer que le test permet de différencier un groupe d’un autre. Plus la différenciation est élevée, meilleure est la validité du test.
Qu’est-ce que la démarche de corrélations avec d’autres tests? (validité)
Démontrer la corrélation entre le test à valider et un autre test dont la validité de la mesure est établie ou présumée pour le construit à l’étude. L’autre test devient le critère. Simple et utilisé, prend le Pearson.
-Validité convergente = concordance entre le nouveau test et le test critère
Qu’est-ce que le piège de l’argument fallacieux?
2 tests aux noms semblables qui ne mesurent pas la même chose ou 2 tests aux noms différents qui mesurent le même construit. Il faut en tenir compte dans l’interprétation des corrélations pour la validité.
Relations entre fidélité et validité
- Fidélité du test nulle = la validité peut aussi être nulle
- Fidélité du test parfaite = la validité peut quand même être nulle
- FIdélité du critère nulle = le test ne peut avoir de validité relative à ce critère même si la fidélité du test est parfaite
Qu’est-ce que l’atténuation?
Limite imposée à la validité par une fidélité imparfaite.
En corrigeant, on peut dire que le coefficient de validité est corrigé pour l’atténuation (on peut corriger le test ou le critère ou les deux pour le coefficient de validité corrigé, mais en pratique juste test corrigé)
Utilisation de l’apostrophe dans la formule pour signaler la partie corrigée.
La correction amène à la fidélité parfaite. Une seconde formule permet plus de réalisme.
Qu’est-ce que la contamination du critère?
Situation dans laquelle le résultat du test influe sur la valeur du critère. (corrélation plus forte ou moins forte selon si on est favorable ou non au critère genre)
Qu’est-ce que la validité divergente?
Démontre que le test a une corrélation relativement faible ou négative avec des construits autres que celui que l’on souhaite mesurer.
Qu’est-ce que la matrice multitraits multiméthodes?
Application des validités convergente et divergente.
Matrice de corrélation (mesure de plusieurs traits par plusieurs méthodes).
Le but est de démontrer que les corrélations relatives à un trait, mais couvrant différentes méthodes, sont plus élevées que les corrélations relatives aux méthodes qui couvrent différents traits.
Pas très utilisée en pratique.
Qu’est-ce que la corrélation multiple?
Technique permettant d’exprimer la relation entre une variable (critère) et la combinaison optimale de 2 ou plusieurs variables (plusieurs tests).
2 objectifs:
-Fournir la meilleure prédiction possible
-Connaître théoriquement les variables redondantes qui contribuent à la prédiction
2 résultats:
-R (interprété comme le r de Pearson) = coefficient de corrélation d’ordre zéro
-b et bêta = pondération des valeurs prédictives
Équation de régression multiple
Utilisée fréquemment dans le processus de combinaison de données provenant de différents tests.
En matière de corrélation multiple, quelles sont les 3 questions importantes?
- L’ordre d’intégration des variables dans l’équation
- L’intersection entre les variables prédictives
- Le fait que de nouvelles variables n’ajoutent rien au pouvoir de prédiction
Qu’est-ce que la validité incrémentale?
Elle utilise la corrélation multiple.
Elle concerne la quantité de données nouvelles et uniques qu’ajoute un test à un corpus de données existant.
Prédictions statistiques VS Prédictions cliniques
En général, les prédictions statistiques sont au moins équivalentes et habituellement supérieures aux prédictions cliniques.
Toutefois, l’élaboration de formules nécessite une base de données adéquate, sinon on doit s’en remettre à l’évaluation clinique pour tirer le meilleur parti. De plus, on a besoin des cliniciens pour définir ce qui doit être mesuré pour être intégré dans les formules.
Qu’est-ce que la théorie de la décision?
On l’utilise pour optimiser les résultats de décisions que l’on a prises en fonction de certains critères.
- Résultat approprié = présente le même statut `la fois pour le test et pour le critère (haut taux = bonne validité critériée)
- Faux positifs = les scores sont supérieurs au point de coupure du test, mais qui représentent un échec par rapport au critère (en bas à droite, genre réussit le test mais ne répond pas au critère)
- Faux négatifs = les scores tombent sous le point de coupure du test, mais représentent une réussite par rapport au critère (en haut à gauche, genre coule le test mais répond au critère)
- Toujours placer le test sur les abscisses et le critère sur l’ordonnée
Quels sont les 2 facteurs qui influent sur la proportion de résultats appropriés, faux positifs et faux négatifs?
- Degré de corrélation: dans une corrélation parfaite, tous les résultats sont appropriés ; dans une corrélation nulle, la somme des faux = les résultats appropriés
- Emplacement du point de coupure: quand on le déplace, on augmente ou diminue les faux (style vase communicants) ; l’utilisateur décide s’il veut plus de faux positifs ou de faux négatifs quand il place son point de coupure
Qu’est-ce que le taux de base?
Proportion d’individus qui présentent une certaine caractéristique au sein d’une population.
Si taux extrême, difficile de démontrer la validité d’un test qui vise à recenser les individus d’un groupe ciblé.
Plus facile autour de 50%.
Le taux change en fonction de la population définie.
Sensibilité VS Spécificité
Sensibilité = degré auquel le test permettra de définir le groupe critère
Spécificité = degré auquel le test détermine ou non les membres du groupe contraste
Sous fome de %
Quels sont les 2 facteurs qui influent sur la sensibilité et la spécificité d’un test?
- Degré de séparation entre les groupes (degré élevé = meilleures spécificité et sensibilité)
- Emplacement du point de coupure (pour un degré fixe, le déplacement du point de coupure fait varier la sensibilité et la spécificité en rapport inverse)
Qu’est-ce que la validité de construit?
Toute preuve qui appuie de manière plausible l’assertion selon laquelle le test mesure le construit ciblé est pertinente.
On peut penser la validité de construit comme faisant partie de la validité de contenu et de la validité critériée.
Qu’est-ce que la structure interne? (validité de construit)
2 sous-catégories:
-Cohérence interne (même principe qu’en fidélité, cohérence élevée = le test mesure un construit ou trait particulier) (préalable à la validité plus qu’une preuve)
-Analyse factorielle: familles de techniques pour déterminer les dimensions communes sous-jacentes aux résultats de nombreuses mesures différentes.
Commence par une matrice de corrélation, concept de dimension et de vecteurs, donne une matrice factorielle (corrélation entre variables initiales et facteurs dégagés)
Les poids supérieurs à 0,30 sont significatifs
Aide à comprendre la structure des tests
Qu’est-ce que le processus de réponse? (validité de construit)
Peut constituer un élément de preuve de validité.
Analyse de la manière dont les sujets répondent au test.
Peu utilisé, pas une démonstration solide.
Qu’est-ce que l’effet des variables expérimentales? (validité de construit)
Ressemble aux groupes contrastés, sauf que les groupes étudiés sont créés (et non formés naturellement) précisément pour l’analyse de la validité du test
Que sont les changements développementaux? (validité de construit)
On contraste des groupes d’âges ou de niveaux scolaires différents.
Bref, quelles sont les principales façons d’analyser la validité de construit? (5)
- Structure interne
- Analyse factorielle
- Processus de réponse
- Effet des variables expérimentales
- Changements développementaux
Qu’est-ce que la validité de conséquence?
Renvoie le test aux conséquences de ses usages et de ses interprétations
Ex: on pourrait tenter de savoir si le teste améliore ou altère la qualité de l’enseignement du cégep où il est utilisé.
Lié à l’objectif du test
*Attention: important de distinguer la preuve qui touche la validité de celle qui peut éclairer des décisions politique et sociale sans toucher la validité
Qu’est-ce que la généralisation de la validité?
Le fait de soupeser toutes les preuves et de déterminer la pertinence des études existantes relativement à l’usage prévu.
Qu’est-ce qu’une méta-analyse?
Technique consistant à résumer les données statistiques de plusieurs études distinctes portant sur un sujet donné.
Quel devrait être le degré de validité?
C’est relatif, il faut se demander si un test est plus ou moins valide qu’un autre.
Quelles sont les grandes étapes d’élaboration d’un test? (6)
- Définition de l’objectif du test
- Questions névralgiques relatives à la conception préliminaire
- Préparation des items
- Analyse d’items
- Étalonnage et programmation de recherches connexes
- Préparation du matériel définitif et publication
Qu’est-ce que la déclaration d’intention?
Description détaillée du ou des construits que mesure le test ainsi que du public cible
Questions de conception préliminaire
-Mode d’administration (individuel? collectif?)
-Longueur (nb d’items, durée, précision)
-Formats d’items (choix réponses, vrai/faux, développement)
-Nombre de scores (va avec la longueur)
-Formation des utilisateurs (nécessaire pour administrer et corriger le test? qui va former?)
Possible reformulation de la déclaration d’intention après la réflexion.
Préparation des items
- Formulation des items (stimulus [question], format de réponse [méthode], condition de réponse [ex. limite de temps, cahier de réponses, etc.], grille de cotation)
- Révision
Avantages des choix de réponses
- Demande peu de jugement, moins d’erreur de mesure (plus de fidélité, fidélité interjuges parfaite)
- Optimisation temporelle (plus court de répondre, plus d’items égale aussi plus de fidélité et validité)
- Optimisation de la cotation (rapide à corriger, peut même être fait par une machine)
Avantages des items à développement
- Facilite l’observation du comportement et des processus associés au test
- Explorer des zones inhabituelles
3 règles de la formulation des choix de réponses
- Utiliser le bon contenu
- Ne pas éventer la réponse
- Simplicité et clarté
Recommandations pour les items à développement
- Les éviter autant que possible
- Être clair dans la tâche
- Éviter les questions optionnelles
- Préciser la cotation avant l’administration
- Cotation anonyme (contrer l’effet “halo”)
- Coter les items un à la fois (contrer l’effet “halo”)
Analyse d’items
Analyse statistique des données obtenues lors de la mise à l’essai, “prétest”
- Mise à l’essai informelle: 5-10 personnes commentent
- Mise à l’essai formelle: administration à un échantillon représentatif assez grand pour des données stables (quelques centaines)
- Stats, CCI, Analyse factorielle
- Sélection d’items
Qu’est-ce que l’indice de difficulté?
Il devrait être appelé indice de facilité
Pourcentage de personnes qui ont répondu correctement à l’item
Valeur p
Pouvoir discriminant de l’item
Capacité de distinguer statistiquement divers groupes de répondants
- Méthode externe: 2+ groupes contrastés selon un critère externe
- Méthode interne: plus utilisée, groupes contrastés selon un critère interne, généralement le score total au test (distingue ceux qui ont mieux réussi de ceux qui ont moins bien réussi)
Degré de discrimination
Représenté par la lettre D généralement
Différence en pourcentage des personnes qui réussissent l’item dans chacun des groupes fort et faible
Peut être exprimé par r (corrélation item-total)
Que montre la courbe caractéristique de l’item?
La CCI montre le rapport entre la performance à un certain item et la présence du trait, ou de l’habileté (thêta), que veut mesurer l’échelle.
Trait en abscisse, probabilité de bonne réponse en ordonnée
En thêta positif, plus le trait est présent, plus la probabilité d’avoir la bonne réponse augmente
Le paramètre de difficulté est à 50% de probabilité de réussite de l’item (plus difficile quand demande plus l’habileté)
La pente est comme l’indice de discrimination
Asymptote inférieure = pseudo-chance
Variables de la CCI
Pente = discrimination = a
Paramètre de difficulté = b
Paramètre de pseudo-chance = c
Le modèle le plus utilisé (Rasch) utilise a et b.
Caractéristiques d’un bon indice de discrimination
- Entre 0.30 et 0.50, ça dépasse rarement 0.50
- Éviter les indices négatifs
- Un 0 ne permet pas de mesurer le trait
Concept de l’analyse factorielle dans la sélection d’items
Sélectionner les items qui ont une forte saturation sur un seul facteur et une saturation plus faible sur tous les autres
Étalonnage et programmation de recherche
Étalonnage, passer le test et récolter les données
Génération de normes
Le test ne change plus
Analyser les données tirées de l’étalonnage
Fidélité, validité, structure factorielle, etc.
Programmes de calibrage
Préparation du matériel définitif et publication
Publication du test, consignes d’administration, interprétation du test, manuels techniques, rapports de cotation, autres documents
Ce n’est pas la dernière étape, l’élaboration du test n’est jamais terminée
Définition test équitable
Mesure un trait, un construit ou une cible avec une validité équivalente dans des groupes différents
Définition test biaisé
Ne mesure pas un trait particulier de la même façon d’un groupe à l’autre
Il faut tenir compte de l’intention du test
Quelles sont les méthodes pour étudier l’équité des tests? (3)
- Comité d’experts (plus simple)
- Fonctionnement différentiel des items (analyse stat de la performance des groupes aux items) ; Mantel-Haenszel
- La prédiction différentielle (même pente et même ordonnée à l’origine)