Cours 5 Flashcards
Qu’est-ce que la validité? Qu’est-ce que le degré de validité?
Lorsqu’on évalue la validité d’un instrument de mesure, on veut généralement savoir s’il mesure vraiment ce qu’il prétend ou devrait mesurer.
On veut savoir si l’échantillon d’items (les questions) de l’échelle représente bien le construit qu’on veut mesurer.
Le degré de validité déterminer l’interprétation et les INFÉRENCES que l’on peut faire à partir des scores d’une échelle.
Donc, validité = degré d’inférences qu’on peut avoir, alors que fidélité = confiance qu’on a dans les scores.
La validité d’un test ou d’une mesure doit etre évaluée selon quels trois aspects?
- Est-ce qu’il mesure bien le CONSTRUIT qu’il pr.tend mesurer?
- Est-ce qu’il mesure bien ce construit pour la POPULATION CIBLÉE?
- Est-ce qu’il mesure bien ce construit pour une APPLICATION PARTICULIÈRE (ex. classifier dans des groupes dx, donner une valeur quantitative, etc.)? - Pcqu’un instrument peut etre valide pour un type d’application, mais pas pour un autre.
Quels sont les trois points clés que les organisations professionnelles (AERA, APA, NCME) soulignent à propos de la validité des tests?
- La validité concerne l’interprétation des SCORES procurés par un test pour un construit spécifique; ce n’est pas une caractéristique du test (ce sont les scores qui doivent etre valides)
- La validité est une question de DEGRÉ; ce n’est pas une question absolue, de tout ou rien
- La validité d’un test repose sur de solides bases théoriques ET empiriques.
Est-ce qu’un test peut etre considéré valide ou non?***
Non. Il y a des degrés (un continuum). La validité varie en fonction de plusieurs facteurs.
Quelles sont les différentes SOURCES de validité?
- Contenu
- Construit
- Factorielle
- Convergente
- Discriminante - Critère
- Concomitante
- Prédictive
- Incrémentielle
C’est le cumul de ces trois sources qui nous informe sur le degré de validité d’un instrument.
Qu’est-ce que la vraisemblance?
- Aussi appelé validité d’apparence
- N’est PAS une forme ou une source de validité
- S’agit du degré auquel une mesure SEMBLE adéquate et reliée à un construit spécifique selon le jugement de a) les personnes qui sont évaluées avec le test et b) les personnes qui utilisent le test.
- Une mesure détient une bonne vraisemblance lorsque les personnes évaluées ou celles qui l’utilisent jugent qu’elle semble pertinente et adéquate pour mesurer le construit.
- Parfait confondue avec la validité de contenu
Les auteurs et autrices NE PEUVENT juger de la vraisemblance.
Pourquoi mesurer la vraisemblance?
Parce que si l’instrument ne parait pas valide ou vraisemblable pour les personnes évaluées ou les utilisateurs, cela peut devenir une menace à la validité.
Quels sont des facteurs qui peuvent influencer la vraisemblance?
- Contexte d’évaluation (endroit physique de l’administration, consignes, attitude et apparence)
- Capacités cognitives des répondants
- santé mental et état psychologique des répondants
- Personnalité des répondants (certains répondent à l’extreme, d’autres sont tjrs incertains)
- Motif de l’évaluation (désirabilité sociale)
Qu’est-ce que la validité de contenu? Est-elle établie de façon inductive ou déductive? ***
Réfère au degré de représentativité des items (questions) pour mesurer le construit.
La plupart du temps établie de façon déductive
- Les auteurs.trices du test demandent à un group d’experts indépendants de se prononcer sur la pertinence des items
*** Doit etre mesuré par des personnes INDÉPENDANTE pcq sinon il y a un risque de biais.
Quelles sont les deux questions que l’ont demande pour vérifier la validité de contenu?
- Chaque item individuellement correspond bien au construit?
- Tous les items d’une échelle considérés comme un groupe constituent un échantillon représentatif de tous les domaines et sous-domaines expliqués par le construit d’intéret?
(si on considère tous les items ensemble)
En quoi la représentativité est-elle centrale dans la validité de contenu?
Tous les domaines et sous-domaines du construit doivent etre représentés.
ex. Échelle d’agressivité doit inclure agressivité direct, indirecte, réactive, proactive, physique, relationnelle, etc.
Il faut éviter de sur ou sous représenter les différents sous-domaines du construit (il doit y avoir un équilibre entre tous les sous-domaines du construit).
Avant de construire une échelle, que doivent faire les auteurs?
Ils doivent tjrs décrire en détails et de façon compréhensive les différents domaines et sous-domaines du construit d’intéret.
(Il doit y avoir une définition précise du construit afin d’assurer une compréhension uniforme. De plus, toutes les catégories définies doivent etre représentées dans l’instrument. On not également l’importance relative de chacun.)
À partir de quoi les chercheurs définissent un construit (et donc, son contenu)?
1) cadre théorique
2) recherches empiriques (recension)
3) connaissances et expériences professionnelles ou pratiques
Quels sont les deux types de VALIDITÉ de contenu?
Nominale: auteurs du test
Consensuelle: groupe de spécialistes indépendants (augmente le degré de confiance car sont des experts).
Comment peut-on estimer le degré de validité de contenu empiriquement?
On demande à des experts indépendants d’estimer:
a. à quel point (degré) CHACUN des items d’un test est pertinent et représentatif du construit d’intéret.
b. à quel point (degré) l’ENSEMBLE des items constitue un b on échantillon représentatif du conteny du construit
Comment peut-on quantifier le degré de validité de contenu?
On donne aux experts un choix de réponse avec une gradation à propos de chaque item afin de systématiser le tout.
Les choix de réponses pourrait aller comme suit:
Pas du tout pertinent ou représentatif = 0
Un peu pertinent = 1
Assez pertinent = 2
Très pertinent = 3
Que peut-on faire avec les données numériques des choix de réponses avec une gradation? Qu’est-ce qu’implique cette démarche?
Nous pouvons calculer un indice de validité de contenu.
On calcul un indice pour chaque item (IVC-1) et pour l’échelle totale (IVC-É):
IVC-1 = Nombre d’experts qui ont jugé l’item représentatif, divisé par le nombre total d’experts.
IVC-É = Proportion d’items jugés représentatifs (la moyenne des IVC-1) divisé par le nombre total d’experts.
Quelles sont les deux grandes menaces à la validité de contenu?
- Inclusion de contenu conceptuellement non pertinent (complique nos inférences lorsqu’il y a des items qui ne sont pas pertinents pour mesurer le construit)
- Sous-représentation conceptuelle de certains domaines du construit (s’il y a plusieurs sous-domaines pour un construit et que seulement certains sont représentés par les items, la validité en souffre puisque ça veut dire que pas tout le contenu est mesuré - pas représentatif du construit)
Qu’est-ce que la validité de construit?
Elle réfère au degré de a) reproductibilité de la structure interne théorique sous-jacente à l’instrument ainsi que les b) relations du construit d’intéret avec d’autres construits externes (doit comparer à d’autres construits ne faisant pas partie de l’instrument).
Quelles sont les deux façons de vérifier la validité de construit?
- Validité factorielle
- Validité convergente ou discriminante