Chapitre 5 Flashcards
Validité
Lorsqu’on évalue la validité d’un instrument de mesure, on veut généralement savoir…
s’il mesure vraiment ce qu’il prétend ou devrait mesurer. On veut savoir si l’échantillon d’items (i.e., les questions) de
l’échelle représente bien le construit qu’on veut mesurer
* Le DEGRÉ de validité détermine l’interprétation et les inférences que l’on peut faire à partir des scores d’une échelle
Est-ce que ce test est une mesure valide de ce
_____, pour cette _______ et pour cette _________
particulière
Est-ce que ce test est une mesure valide de ce
construit, pour cette population et pour cette application
particulière
Les organisations professionnelles soulignent trois points clés à propos de la validité des tests
La validité concerne l’interprétation des scores procurés
par un test pour un construit spécifique; ce n’est pas une
caractéristique du test
- La validité est une question de DEGRÉ ; ce n’est pas une
question absolue, de « tout ou rien » - La validité d’un test repose sur de solides bases théoriques ET empiriques
EXAMEN :
Vrai ou faux : La “vraisemblance” est une source de validité
FAUX
3 Différentes sources de validité (IMPORTANT : C’est source (et non type), car chacune contribue à la validité)
- Contenu
- De construit
- Critère
Vraisemblance
- Aussi appelée validité d’apparence (« face validity »)
- N’est pas une forme ou une source de validité
- Le degré auquel une mesure semble adéquate et reliée à un construit spécifique selon le jugement de (a) les personnes qui sont évaluées avec le test (i.e., clients.es, profanes, non-experts.es qui sont évalués.es) et/ou (b) les personnes qui utilisent le test (i.e., intervenants.es, mais peut aussi être des représentants légaux
reliés à la population ciblée, etc., par ex. parents, enseignants, etc.) LES AUTEURS DU TEST NE SONT PAS LÀ-DEDANS. - Une mesure détient une bonne vraisemblance lorsque les
personnes évaluées ou celles qui l’utilisent jugent qu’elle « semble pertinente et adéquate » pour mesurer le construit - Si l’instrument ne paraît pas valide ou vraisemblable pour les personnes évaluées/utilisatrices dans les situations concrètes d’évaluation, cela peut devenir une menace à la validité
- e.g., mesurer le niveau d’agressivité d’un enfant en lui faisant faire un dessin ?
- e.g., l’item « je sens parfois mon âme sortir de mon corps »
serait-il perçu comme peu valide dans plusieurs contextes
(e.g., sélection du personnel) ?
Plusieurs facteurs peuvent influencer la vraisemblance
- Format de présentation de l’instrument
- Contexte d’évaluation (e.g., endroit physique de
l’administration, les consignes, attitude et apparence physique de l’évaluateur, etc.) - Capacités cognitives des répondants.es
- Santé mentale et état psychologique des répondants.es
- Personnalité des répondants.es
- Motif de l’évaluation (désirabilité sociale [+ ou -])
- etc.
IMPORTANT : Validité de contenu
Réfère au degré de représentativité des items (questions)
utilisés pour mesurer un construit
* La plupart du temps établie de façon déductive
* Les auteurs du test demandent à un groupe d’experts INDÉPENDANTS de se prononcer sur la pertinence des items
- On demande est-ce que :
1. Chaque item individuellement correspond bien au construit ?
2. Tous les items d’une échelle considérés comme un groupe
constituent un échantillon représentatif de tous les domaines (et sous-domaines) du construit d’intérêt ? - La représentativité est centrale : Tous les domaines (et sous-domaines) du construit sont-ils représentés ?
*e.g., Échelle d’impulsivité: impulsivité cognitive, impulsivité
émotionnelle, impulsivité comportementale, etc. - Éviter la sur- ou sous-représentation d’items des différents
sous-domaines du construit
Internet : La validité de contenu évalue dans quelle mesure les divers items ou épreuves d’un instrument psychométrique sont représentatifs du ou des construits mesurés et de leurs différentes facettes. Ainsi, lorsque l’on cherche à établir la validité de contenu d’un instrument on se demandera, d’une part, si les items ou épreuves qui le composent sont des indicateurs valides du ou des concepts mesurés et d’autre part, on se demandera si tous les aspects ou facettes du ou des concepts évalués sont mesurés adéquatement par les items ou épreuves qui composent l’instrument.
À partir de quoi les chercheurs définissent un construit (et donc, son contenu) ?
1) Cadre théorique
2) Recherches empiriques (recension)
3) Connaissances et expériences professionnelles/pratiques
IMPORTANT
Deux types de validité de contenu :
- Nominale : auteurs du test
- Consensuelle : groupe de spécialistes indépendants
IMPORTANT : Consensuelle est meilleur que nomimale - Avec une échelle de mesure quantitative, on demande à des experts indépendants d’estimer
A. à quel point (degré) chacun des items d’un test est
pertinent et représentatif du construit d’intérêt
B. à quel point (degré) l’ensemble des items constitue un bon échantillon représentatif du contenu du construit - Puisque nous avons des données numériques (0=pas pertinent, 3=très pertinent), on peut donc calculer un Indice de validité de contenu (IVC). On calcule un indice pour chaque item (IVC-I) et pour l’échelle totale (IVC-É)
IVC-I = Nombre d’experts.es qui ont jugé l’item représentatif
(choix 2 ou 3), divisé par le nombre total d’experts.es
Il y a deux grandes menaces à la validité de contenu :
- Inclusion de contenu conceptuellement non pertinent
* e.g., des items d’hyperactivité sont intégrés dans une échelle d’inattention - Sous-représentation conceptuelle de certains domaines du construit
* e.g., Théoriquement, le construit Extraversion inclue les domaines de l’activité, la sociabilité, la dominance sociale et la recherche de sensation, mais une échelle ne contient que des items de sociabilité et de dominance sociale
Validité de construit
- C’est quoi?
- 2 façons de la mesurer
- Réfère au degré de (a) reproductibilité de la structure interne théorique sous-jacente à l’instrument ainsi que les (b) relations du construit d’intérêt avec d’autres construits externes (INTERNET : La validité de construit est également nommée validité théorique ou encore validité conceptuelle par certains auteurs. Ce type de validité vise à s’assurer que l’instrument mesure vraiment le ou les construits qu’il a été conçu pour mesurer et qu’il offre une mesure adéquate du modèle théorique sur lequel il s’appuie.)
- Deux grandes façons de la vérifier :
1. Validité factorielle
2. Validité convergente / discriminante - Avant d’entamer ces évaluations, il faut toutefois bien connaitre la théorie sous-jacente au construit
Réseau nomologique
Le réseau nomologique est la théorie expliquant le construit par le biais de ses interrelations avec d’autres construits.
Nomologie est « l’étude des lois », donc bien plus qu’une liste de domaines ou sous-domaines. lois = relations entre différents concepts
Validité factorielle
On veut vérifier si la structure factorielle théorique qui
représente le construit est reproduite sur le plan empirique (i.e., avec des données). (INTERNET : L’analyse factorielle désigne une série de techniques qui visent à regrouper statistiquement les variables d’un questionnaire qui sont associées entre elles)
L’objectif est de vérifier deux aspects inter-reliés de la
structure factorielle théorique
1. Les items sont-ils significativement (statistiquement)
associés au facteur (construit) ?
2. Dans le cas d’un instrument multidimensionnel,
a) Les items sont-ils significativement associés au bon facteur et non-associés aux autres facteurs ?
b) Dans le cas d’une structure hiérarchique, est-ce que les
sous-domaines sont significativement associés au domaine
général (e.g., traits spécifiques associés à trait général) ?
Quels sont les 2 types de Validité factorielle?
- Analyse factorielle exploratoire
- On identifie des regroupements d’items inter-corrélés, signifiant que les individus tendent à y répondre de façon similaire
- e.g., Si les répondants.es ont tendance à répondre oui à la Q#1ont aussi tendance à répondre oui à Q#5 et à Q#8, ces items seront donc regroupés dans un même facteur
- Le chercheur n’impose aucune restriction à la matrice de corrélations (ou de covariances) entre les items
- Critère classique : on devrait avoir des saturations factorielles de 0,40 ou plus pour les items associés à un facteur
- Analyse factorielle confirmatoire
Le chercheur impose une structure stricte a priori à la
matrice de corrélations (ou de covariances) et teste si elle
correspond aux données - i.e., on programme quels items sont associés à un facteur, tout en leur imposant une corrélation de 0 avec les autres facteurs
- C’est la méthode qu’il faudrait normalement employer à l’étape de la validation puisque la structure est supposée être connue
- Encore trop peu employée en psychométrie, en partie parce que les analyses statistiques sont plus complexes