examen 3 Flashcards
Angoff (1988) souligne que même si le concept de psychométrie a changé, l’importance que lui accordent les psychométriciens est, quant à elle, restée ______.
constante
En psychométrie, la validité a toujours été considérée comme le concept le plus _______ et le plus important.
fondamental
Pour les concepteurs comme pour les praticiens, l’essentiel est en effet d’être assuré de _______ ce qu’ils veulent _______, et uniquement cela.
mesurer, mesurer
Vrai ou faux
Avant de diffuser un test, les constructeurs ont le devoir de présenter des preuves suffisantes que leur instrument mesure bien ce qu’il prétend mesurer.
vrai
Au début des années ____, la validité était envisagée de manière relativement morcelée. Les technical recommandations de l’APA se limitaient à codifier des types de validité (de contenu, prédictive, concomitante et conceptuelle).
1950
Qu’est-ce qui a changé en 1985 a propos de la validité dans les Standards for educational and psychological testing?
la validité est présentée comme un concept unitaire se rapportant non au test lui-même, mais aux inférences faites à partir des résultats de celui-ci.
Vrai ou faux
En 1985, les auteurs soulignent qu’il est incorrect de parler de la validité d’un test en général.
vrai
Quelles sont les 3 grandes catégories de preuves de validité d’un test en 1985?
le contenu du test, les critères externes ou le modèle/concept sur la base duquel le test a été construit
Après les standards en 1985, qui va jouer un rôle important en défendant avec force la nécessité d’intégrer l’ensemble des preuves de validité sur la base d’une notion unificatrice.
Messick (1988,1989,1995)
Par conséquent, lorsque l’on évaluer la validité des inférences faites à partir des scores à un test, il est fondamental de se référer au _____ ________ sur la base duquel le test ayant servie à récolter ces scores a été construit.
cadre conceptuel
Vrai ou faux
C’est par rapport au cadre conceptuel que les preuves de validité seront sélectionnées et perdront de la valeur.
faux, prendront de la valeur
La version de ____, des standards for educational and psychological testing souligne que, logiquement, le point de départ de la procédure de validation est une définition détaillée du cadre conceptuel du test.
1999
Vrai ou faux
Le cadre conceptuel est, pour une part, défini par l’usage prévu des scores au test.
vrai
Une variable qui ne fait pas partie du cadre conceptuel initial vient introduire une source de variation ___ _______ dans les résultats.
non pertinente
Nomme une autre situation problématique en lien avec le cadre conceptuel?
Lorsque le test n’offre pas une représentation suffisamment complète du cadre conceptuel
la validation est la responsabilité de qui?
des concepteurs et des utilisateurs.
Quelles sont les 5 catégories de preuves de validité?
- le contenu
- les processus de réponse
- la structure interne
- les relations avec d’autres variables
- les conséquences du testing
quelles sont les caractéristiques de la validité basée sur le contenu?
évaluation formalisée par des experts de l’ensemble des caractéristiques des items en référence à ce que le test prétend mesurer.
quelles sont les caractéristiques de la validité basée sur les processus de réponse?
évaluation de l’adéquation entre les caractéristiques visées par le test et de celles qui sont effectivement mises en oeuvre par les répondants.
quelles sont les caractéristiques de la validité basée sur la structure interne?
évaluation du degré de relation entre les items et les composantes du test définies par le modèle de référence.
quelles sont les caractéristiques de la validité basée sur les relations avec d’autres variables?
évaluation du degré de liaison avec des scores au test avec d’autres mesures externes au test.
quelles sont les caractéristiques de la validité basée sur les conséquences du testing?
évaluation des conséquences non souhaitées de l’application du test et de l’utilisation des scores.
Vrai ou faux
Les preuves de validité basées sur le contenu ne concernent uniquement la formulation des items.
faux, aussi leur format et les consignes de passation et de cotation.
Vrai ou faux
La validité basées sur le contenu est pour une part, subjective.
vrai
Quelle est la différence entre la validation sur la base du contenu et la validité apparente?
La validité apparente ne se base que sur une évaluation de surface des items. Les juges chargés de l’évaluation ne sont pas des experts et n’utilisent pas de méthodologie particulière pour effectuer leur travail. Ils se contentent de vérifier si les items ont l’air de mesurer ce qu’ils prétendent mesurer.
De quelle manière, selon Anastasi, la valaditié apparente peut-être utile?
pour mettre au point des instruments destinés à un large public (ex: tests d’admission).
Qui suis-je?
Je suis un exemple de test basée sur un modèle complexe qui motive le calcul de plusieurs scores composites et d’un score global pour l’ensemble du test.
Les échelles d’intelligence de Wechsler.
Quelles techniques (2) sont les plus souvent utilisées pour évaluer la validité basées sur la structure interne du test?
l’analyse factorielle et les modèles structuraux d’équations.
Qu’est-ce qu’une preuve de convergence dans la validité basée sur les relations avec d’autres variables?
Lorsque les critères sont des mesures d’une réalité similaire à celle visée par le test.
Qu’est-ce qu’une preuve de divergence dans la validité basée sur les relations avec d’autres variables?
Comparer les scores au test à des mesures d’un concept différent, mais voisin. Le but est de vérifier que le test mesure la variance associée au concept visé et non la variance de caractéristiques proches, mais non pertinentes.
Qu’est-ce que la validité concomitante?
les deux séries de mesures sont récoltées simultanément.
Qu’est-ce qu’une étude prédictive?
les mesures au test servent à prédire des résultats qui seront obtenus ultérieurement.
Les preuves de validité basées sur les relations avec d’autres variables soulèvent la questions de leur __________.
généralisation
Quelle catégorie de preuve suis-je? Messick a joué un grand rôle dans la promotion de cette catégorie de preuves en soulignant que le concept traditionnel de validité ne prenait pas en compte les conséquences de l’usage des test.
les preuves basées sur les conséquences du testing.
Qui a dit ça: la personne qui réalise le testing et celle qui utilise les scores ont la responsabilité de fournir des preuves de validité du testing.
Angoff
Que veut dire HPS?
Heures de prestation de service
Que veut dire HAP?
Heures d’activités professionnelles
Que suggère Green pour réduire la difficulté de la tâche des constructeurs de tests par rapport aux conséquences de l’utilisation des instruments qu’ils produisent.
Il suggère de mettre en place une coopération à grande échelle afin de tenter de généraliser des résultats recueillis dans des contextes particuliers.
Vrai ou faux
Trop souvent, les preuves basées sur le contenu se focalisent sur les seuls items.
vrai
Quelles sont les autres composantes qui sont importantes dans la validité basée sur le contenu?
les instructions données aux sujets, les modalités de présentation des stimuli, les contraintes de temps, les modalités de réponse et les critères de cotation
Pourquoi dit on que les preuves de validité récoltées lors de l’évaluation du contenu d’un test sont conditionnelles?
elles dépendent de la définition du concept visé, laquelle est toujours relative au lieu et au moment.
Vrai ou faux
Les preuves de validité ne dépendent pas de la population visée par le test.
faux, ils dépendent.
Quelles sont les 7 principes de base pour rassembler des preuves de validité basées sur le contenu d’un test?
- définir le domaine et les facettes
- avoir un échantillon d’expert de de membre de la population de référence
- soumettre les composantes à une étude de validité
- utiliser plusieurs experts pour évaluer la validité et quantifier leurs jugements
- examiner la représentation proportionnelle des items
- présenter les preuves de validité lors de la publication
- prendre en compte les analyse psychométriques ultérieures
Vrai ou faux
Une preuve de validité pour les uns peut être considérée comme une preuve de biais pour les autres.
vrai
Vrai ou faux
Les preuves de validité sont toujours définitive.
faux, une révision périodique des preuves de validité est nécessaire.
Le degré de concordance (ou de fidélité) entre les juges peut être évalué par trois indicateurs, lesquels?
- la variance de jugement
- la concordance des jugements
- la cohérence interne des jugements
Qu’est-ce que la variance des jugements?
lorsque celle-ci est faible, les juges ont tendance à attribuer la même cote à un même item.
Qu’est-ce que la concordance des jugements?
les juges ont tendance à ordonner de la même manière les items selon leur degré de congruence avec la facette à mesurer.
Qu’est-ce que la cohérence interne des jugements?
les juges sont consistants dans leur manière d’évaluer les items par rapport aux autres juges. Un juge sévère demeure sévère pour tous les items.
Vrai ou faux
Il suffit qu’un item reçoive une évaluation moyenne élevée pour juger de sa pertinence.
Faux, cette évaluation doit aussi être la même pour un grand nombre de juges.
L’évaluation de la concordance des jugements est un moyen de vérifier la _______ des jugements des experts appelés à se prononcer sur les preuves de validité basées sur le contenu des items.
fidélité
Le coefficient W de Kendall (1948) permet de faire quoi?
mesurer le degré de concordance entre plusieurs juges.
Quelle est la mesure alternative de l’accord entre les juges?
Le coefficient K (kappa) de Cohen. Il postule que les données sont nominales.
Quand utilise-t-on le Kappa de Cohen?
lorsque la tâche demandée aux juges est un classement des items dans des catégories.
Le coefficient K prend en compte le nombre de fois où les juges sont d’accord, mais prend également en compte le nombre d’accord qu’il serait possible d’obtenir au ______.
hasard
Vrai ou faux
Le coefficient Kappa est plus exigeant que la plupart des autres indices de concordance et sera habituellement plus faible que ceux-ci.
vrai
L’évaluation de la dispersion, de la concordance inter-juges et de la cohérence interne nous fournissent des indices différents, mais __________, du degré de confiance que l’on peut avoir dans l’évaluation de la validité de contenu d’un test par un groupe de juges.
complémentaires
Les items les plus valides seront ceux pour lesquels les juges auront manifesté le ______ de dispersion dans leurs appréciations, la _____ grande concordance dans leurs classements respectifs et la ______ constance entre les items du même type.
moins, plus, meilleure
Si un test mesure une caractéristique particulière, ses scores devraient être bien corrélés avec tout critère mesurant la même caractéristique ou une caractéristique voisine, et _______ corrélés avec tout critère mesurant des caractéristiques différentes.
faiblement
Pour démontrer la validité des résultats d’un test, le constructeur peut faire appel à deux types de critère, lesquels?
- la validité concomitante
2. la validité prédictive
Vrai ou faux
Le choix et la mesure du bon critère peuvent être des tâches tout aussi problématique que la construction d’un instrument de mesure lui-même.
vrai
La ________ opérationnelle du critère est l’une des plus importante considérations pratiques dans l’estimation de la validité liée à un critère externe.
définition
Qui a inventé la matrice multi-trait multi-méthode?
Campbell et Fiske (1959)
Qu’est-ce que la matrice multi-trait multi-méthode?
une matrice de corrélations entre résultats à des tests différents par ce qu’ils mesurent (multi-trait) et par la façon dont ils le mesurent (multi-méthode).
Vrai ou faux
Selon la méthode de la matrice m-m m-m, la corrélation la moins forte devrait être obtenue entre deux tests mesurant le même trait avec la même méthode.
faux, la plus forte
Quelle corrélation devrait être sensiblement plus faible selon la matrice?
le même trait par des méthodes différentes
Quelle corrélation devrait être nettement plus faible selon la matrice?
traits différents par la même méthode.
Les corrélations sous la diagonale de chacune des parties de la matrice multi-trait multi-méthode fournissent les coefficients de validité _______.
discriminante
Quelles sont les 3 problèmes d’estimation de la validité liés au calcul des corrélations?
- effet de la grandeur de l’échantillon
- effet de la réduction de l’étendue
- Effet de la fidélité du prédicteur et du critère
Qu’est-ce que l’effet de la grandeur de l’échantillon?
La probabilité d’obtenir une valeur stable de validité s’accroît, lorsque celle-ci est calculée à partir d’un nombre suffisamment grand de résultats.
Schmidt, Hunter et Urry (1976) ont démontré qu’avec des échantillon de 200 sujets et plus, la valeur calculée de la validité était celle de la population dans __% des cas.
90
Sauf s’il existe une très forte relation entre le prédicteur et le critère, il est par conséquent préférable d’effectuer une étude de validité avec un _____ nombre de sujets.
grand
Que faut-il faire s’il est difficile d’effectuer une étude de validité avec de grands échantillons?
il faut réaliser plusieurs études de validité afin de voir si la corrélation entre le prédicteur et le critère se généralise à un ensemble de situations semblables (contre-validation ou validation croisée).
Qu’est-ce que l’effet de réduction de l’étendue?
Puisque l’estimation de la validité repose très souvent sur le calcul des corrélations, la réduction de l’étendue a les mêmes effets que lors de l’estimation de la corrélation.
La réduction de l’étendue peut survenir dans trois cas particulier d’études de validité, lesquels?
- le test est utilisé pour des fins de sélection
- le test prédicteur est corrélé avec une variable intervenant dans la sélection des sujets
- le test prédicteur peut être trop facile ou trop difficile.
Qu’est-ce que l’effet de la fidélité du prédicteur et du critère?
Lorsque nous calculons la validité des résultats à un test, nous réalisons nos calculs sur les valeurs observées du prédicteur et du critère. Ces valeurs sont imprécises, à moins qu’elles n’aient une fidélité parfaite. Considérant qu’une partie des valeurs observées est constituée d’erreurs aléatoires, il est normal que nous tenions compte de cette erreur dans le calcul des corrélations.
Si l’on souhaite estimer la validité, non pas à partir des scores observés, mais à partir des scores vrais, il est nécessaire d’effectuer la correction dite d’_______.
atténuation.
La valeur de _.__ est le coefficient maximum de corrélation que nous pourrions obtenir entre les scores observés au prédicteur et au critère en postulant qu’il n’y a aucune erreur de mesure.
0.73
Vrai ou faux
La validité conceptuelle est donc au coeur du problème de l’opérationnalisation des variables.
vrai
Le modèle théorique qui sous-tend la structure du test nous permet de formuler des hypothèses à propos des relations que nous devrions observer entre, d’une part, les scores aux items et d’autre part, les scores composites. Lorsque ces hypothèses ne sont pas confirmées par les résultats au test, deux interprétations sont possibles, lesquels?
- l’instrument de mesure est une bonne opérationnalisation du modèle, mais ce dernier n’est pas pertinent.
- le modèle théorique est valide, mais l’instrument en est une mauvaise opérationnalisation.
Guttman (1950) propose de considérer que les résultats d’un test sont hiérarchiques lorsque moins de __% des résultats ne sont pas reproductibles.
10
Qu’est-ce que l’analyse factorielle?
c’est une méthode pour apporter des preuves de validité sur la base de la structure interne d’un test. Elle permet de mettre en évidence les relations entre les caractéristiques mesurées, mais non directement observables et les scores observés aux items ou aux échelles qui constituent le test.
Lorsque nous ne disposons pas a priori d’un modèle des caractéristiques mentales sous-jacentes au test, l’analyse factorielle permet de suggérer un certain nombre de traits et leurs relations avec les scores observés, comment appelle-t-on ce type d’analyse factorielle?
exploratoire
Lorsque nous partons d’un modèle des caractéristiques mesurées et que nous vérifions au moyen de l’analyse factorielle son ajustement avec les scores observés, celle-ci est qualifiée de….
confirmatoire
Pour des raisons d’homogénéité des résultats, le constructeur de test préfère se retrouver dans la situation où son test mesure un nombre limité de variables __________ les unes des autres.
indépendantes.
Toute démarche d’analyse factorielle s’appuie sur deux postulats de base, lesquels?
- le postulat de causalité factorielle
2. le postulat de parcimonie
Qu’est-ce que le postulat de causalité factorielle?
les variables observées sont des combinaisons linéaires de variables causales sous-jacentes.
Qu’est-ce que le postulat de parcimonie?
entre deux solutions factorielles, nous devons choisir la plus simple.
Hormis les problèmes d’interprétation, l’analyse factorielle soulève plusieurs questions méthodologiques relatives aux conditions de son application, lesquels?
- la taille de l’échantillon
- la normalité
- la linéarité
Le développement dans les années ____ de logiciels comme LISREL et EQS a rendu possible un usage aisé des modèles structuraux d’équations (MSE) comme méthode statistique permettant d’apporter des preuves de validité.
1980
Vrai ou faux
Les modèles structuraux d’équations tendent aujourd’hui à supplanter les analyses factorielles classiques.
vrai
Qu’est-ce que le khi carré?
le khi carré est un indice d’ajustement qui mesure la différence entre la matrice de covariance déterminée sur la base des résultats des personnes évaluées et la matrice de covariance prédite sur la base du modèle.
Vrai ou faux
Le khi carré est un indice de bon ajustement.
faux, de mauvais, plus sa valeur est petite, meilleur est l’ajustement.
Vrai ou faux
Le khi carré est très sensible à la taille de l’échantillon.
vrai
Un khi carré non significatif (p plus petit que 0,05) signifie que l’écart entre la matrice de covariance observée et la matrice prédite est statistiquement non significatif, ce qui indique un ___ ajustement des résultats récoltés avec le test au modèle théorique.
bon
Vrai ou faux
Le khi carré est pénalisé par le manque de parcimonie.
faux
Plus le modèle est complexe, ______ est l’ajustement et la valeur du khi carré.
meilleur
Vrai ou faux
Nous ne pouvons pas écarter que la validité des inférences faites à partir des scores à un test puisse varier au sein d’une même population selon le groupe d’appartenance des sujets évalués.
vrai
Qu’est-ce que l’étude de validité différentielle?
évaluer la validité des inférences faites sur la base des scores à un test non seulement pour les différents usages que nous souhaitons faire de ce dernier, mais aussi pour différents groupes de la population auxquels nous aurons l’occasion de l’appliquer.
Un biais existe lorsqu’une _______ de validité des inférences faites sur la base des scores au test est observé entre certains groupes de la population.
différence
C’est l’________ de différence observée qui devrait poser problème et mettre en doute la qualité d’un test, et non l’inverse.
absence.
En quoi consiste l’évaluation de la validité différentielle du contenu?
à vérifier si, au sein de chacun des groupes, le contenu des items est approprié pour mesurer la réalité souhaitée.