Aussi appelée validité d’apparence (« face validity ») N’est pas une forme ou une source de validité Le degré auquel une mesure semble adéquate et reliée à un construit spécifique selon le jugement de (a) les personnes qui sont évaluées avec le test (i.e., clients.es, profanes, non-experts.es qui sont évalués.es) et/ou (b) les personnes qui utilisent le test (i.e., intervenants.es, mais peut aussi être des représentants légaux reliés à la population ciblée, etc., par ex. parents, enseignants, etc.) LES AUTEURS DU TEST NE SONT PAS LÀ-DEDANS. Une mesure détient une bonne vraisemblance lorsque les personnes évaluées ou celles qui l’utilisent jugent qu’elle « semble pertinente et adéquate » pour mesurer le construit Si l’instrument ne paraît pas valide ou vraisemblable pour les personnes évaluées/utilisatrices dans les situations concrètes d’évaluation, cela peut devenir une menace à la validité e.g., mesurer le niveau d’agressivité d’un enfant en lui faisant faire un dessin ? e.g., l’item « je sens parfois mon âme sortir de mon corps » serait-il perçu comme peu valide dans plusieurs contextes (e.g., sélection du personnel) ?

Chapitre 5 Flashcards by S C

Validité
Lorsqu’on évalue la validité d’un instrument de mesure, on veut généralement savoir…

s’il mesure vraiment ce qu’il prétend ou devrait mesurer. On veut savoir si l’échantillon d’items (i.e., les questions) de
l’échelle représente bien le construit qu’on veut mesurer
* Le DEGRÉ de validité détermine l’interprétation et les inférences que l’on peut faire à partir des scores d’une échelle

How well did you know this?

Not at all

Perfectly

Est-ce que ce test est une mesure valide de ce
_____, pour cette _______ et pour cette _________
particulière

Est-ce que ce test est une mesure valide de ce
construit, pour cette population et pour cette application
particulière

How well did you know this?

Not at all

Perfectly

Les organisations professionnelles soulignent trois points clés à propos de la validité des tests

La validité concerne l’interprétation des scores procurés
par un test pour un construit spécifique; ce n’est pas une
caractéristique du test

La validité est une question de DEGRÉ ; ce n’est pas une
question absolue, de « tout ou rien »
La validité d’un test repose sur de solides bases théoriques ET empiriques

How well did you know this?

Not at all

Perfectly

EXAMEN :
Vrai ou faux : La “vraisemblance” est une source de validité

FAUX

How well did you know this?

Not at all

Perfectly

3 Différentes sources de validité (IMPORTANT : C’est source (et non type), car chacune contribue à la validité)

Contenu
De construit
Critère

How well did you know this?

Not at all

Perfectly

Vraisemblance

Aussi appelée validité d’apparence (« face validity »)
N’est pas une forme ou une source de validité
Le degré auquel une mesure semble adéquate et reliée à un construit spécifique selon le jugement de (a) les personnes qui sont évaluées avec le test (i.e., clients.es, profanes, non-experts.es qui sont évalués.es) et/ou (b) les personnes qui utilisent le test (i.e., intervenants.es, mais peut aussi être des représentants légaux
reliés à la population ciblée, etc., par ex. parents, enseignants, etc.) LES AUTEURS DU TEST NE SONT PAS LÀ-DEDANS.
Une mesure détient une bonne vraisemblance lorsque les
personnes évaluées ou celles qui l’utilisent jugent qu’elle « semble pertinente et adéquate » pour mesurer le construit
Si l’instrument ne paraît pas valide ou vraisemblable pour les personnes évaluées/utilisatrices dans les situations concrètes d’évaluation, cela peut devenir une menace à la validité
e.g., mesurer le niveau d’agressivité d’un enfant en lui faisant faire un dessin ?
e.g., l’item « je sens parfois mon âme sortir de mon corps »
serait-il perçu comme peu valide dans plusieurs contextes
(e.g., sélection du personnel) ?

How well did you know this?

Not at all

Perfectly

Plusieurs facteurs peuvent influencer la vraisemblance

Format de présentation de l’instrument
Contexte d’évaluation (e.g., endroit physique de
l’administration, les consignes, attitude et apparence physique de l’évaluateur, etc.)
Capacités cognitives des répondants.es
Santé mentale et état psychologique des répondants.es
Personnalité des répondants.es
Motif de l’évaluation (désirabilité sociale [+ ou -])
etc.

How well did you know this?

Not at all

Perfectly

IMPORTANT : Validité de contenu

Réfère au degré de représentativité des items (questions)
utilisés pour mesurer un construit
* La plupart du temps établie de façon déductive
* Les auteurs du test demandent à un groupe d’experts INDÉPENDANTS de se prononcer sur la pertinence des items

On demande est-ce que :
1. Chaque item individuellement correspond bien au construit ?
2. Tous les items d’une échelle considérés comme un groupe
constituent un échantillon représentatif de tous les domaines (et sous-domaines) du construit d’intérêt ?
La représentativité est centrale : Tous les domaines (et sous-domaines) du construit sont-ils représentés ?
*e.g., Échelle d’impulsivité: impulsivité cognitive, impulsivité
émotionnelle, impulsivité comportementale, etc.
Éviter la sur- ou sous-représentation d’items des différents
sous-domaines du construit

Internet : La validité de contenu évalue dans quelle mesure les divers items ou épreuves d’un instrument psychométrique sont représentatifs du ou des construits mesurés et de leurs différentes facettes. Ainsi, lorsque l’on cherche à établir la validité de contenu d’un instrument on se demandera, d’une part, si les items ou épreuves qui le composent sont des indicateurs valides du ou des concepts mesurés et d’autre part, on se demandera si tous les aspects ou facettes du ou des concepts évalués sont mesurés adéquatement par les items ou épreuves qui composent l’instrument.

How well did you know this?

Not at all

Perfectly

À partir de quoi les chercheurs définissent un construit (et donc, son contenu) ?

1) Cadre théorique
2) Recherches empiriques (recension)
3) Connaissances et expériences professionnelles/pratiques

How well did you know this?

Not at all

Perfectly

IMPORTANT
Deux types de validité de contenu :

Nominale : auteurs du test
Consensuelle : groupe de spécialistes indépendants
IMPORTANT : Consensuelle est meilleur que nomimale
Avec une échelle de mesure quantitative, on demande à des experts indépendants d’estimer
A. à quel point (degré) chacun des items d’un test est
pertinent et représentatif du construit d’intérêt
B. à quel point (degré) l’ensemble des items constitue un bon échantillon représentatif du contenu du construit
Puisque nous avons des données numériques (0=pas pertinent, 3=très pertinent), on peut donc calculer un Indice de validité de contenu (IVC). On calcule un indice pour chaque item (IVC-I) et pour l’échelle totale (IVC-É)
IVC-I = Nombre d’experts.es qui ont jugé l’item représentatif
(choix 2 ou 3), divisé par le nombre total d’experts.es

How well did you know this?

Not at all

Perfectly

Il y a deux grandes menaces à la validité de contenu :

Inclusion de contenu conceptuellement non pertinent
* e.g., des items d’hyperactivité sont intégrés dans une échelle d’inattention
Sous-représentation conceptuelle de certains domaines du construit
* e.g., Théoriquement, le construit Extraversion inclue les domaines de l’activité, la sociabilité, la dominance sociale et la recherche de sensation, mais une échelle ne contient que des items de sociabilité et de dominance sociale

How well did you know this?

Not at all

Perfectly

Validité de construit
- C’est quoi?
- 2 façons de la mesurer

Réfère au degré de (a) reproductibilité de la structure interne théorique sous-jacente à l’instrument ainsi que les (b) relations du construit d’intérêt avec d’autres construits externes (INTERNET : La validité de construit est également nommée validité théorique ou encore validité conceptuelle par certains auteurs. Ce type de validité vise à s’assurer que l’instrument mesure vraiment le ou les construits qu’il a été conçu pour mesurer et qu’il offre une mesure adéquate du modèle théorique sur lequel il s’appuie.)
Deux grandes façons de la vérifier :
1. Validité factorielle
2. Validité convergente / discriminante
Avant d’entamer ces évaluations, il faut toutefois bien connaitre la théorie sous-jacente au construit

How well did you know this?

Not at all

Perfectly

Réseau nomologique

Le réseau nomologique est la théorie expliquant le construit par le biais de ses interrelations avec d’autres construits.

Nomologie est « l’étude des lois », donc bien plus qu’une liste de domaines ou sous-domaines. lois = relations entre différents concepts

How well did you know this?

Not at all

Perfectly

Validité factorielle

On veut vérifier si la structure factorielle théorique qui
représente le construit est reproduite sur le plan empirique (i.e., avec des données). (INTERNET : L’analyse factorielle désigne une série de techniques qui visent à regrouper statistiquement les variables d’un questionnaire qui sont associées entre elles)

L’objectif est de vérifier deux aspects inter-reliés de la
structure factorielle théorique
1. Les items sont-ils significativement (statistiquement)
associés au facteur (construit) ?
2. Dans le cas d’un instrument multidimensionnel,
a) Les items sont-ils significativement associés au bon facteur et non-associés aux autres facteurs ?
b) Dans le cas d’une structure hiérarchique, est-ce que les
sous-domaines sont significativement associés au domaine
général (e.g., traits spécifiques associés à trait général) ?

How well did you know this?

Not at all

Perfectly

Quels sont les 2 types de Validité factorielle?

Analyse factorielle exploratoire
On identifie des regroupements d’items inter-corrélés, signifiant que les individus tendent à y répondre de façon similaire
e.g., Si les répondants.es ont tendance à répondre oui à la Q#1ont aussi tendance à répondre oui à Q#5 et à Q#8, ces items seront donc regroupés dans un même facteur
Le chercheur n’impose aucune restriction à la matrice de corrélations (ou de covariances) entre les items
Critère classique : on devrait avoir des saturations factorielles de 0,40 ou plus pour les items associés à un facteur
Analyse factorielle confirmatoire
Le chercheur impose une structure stricte a priori à la
matrice de corrélations (ou de covariances) et teste si elle
correspond aux données
i.e., on programme quels items sont associés à un facteur, tout en leur imposant une corrélation de 0 avec les autres facteurs
C’est la méthode qu’il faudrait normalement employer à l’étape de la validation puisque la structure est supposée être connue
Encore trop peu employée en psychométrie, en partie parce que les analyses statistiques sont plus complexes

How well did you know this?

Not at all

Perfectly

Validité convergente VS validité discriminante

Validité convergente
Degré auquel les scores d’une échelle sont associés avec ceux d’une autre échelle existante qui mesure le même construit théorique

Internet : La validité convergente veille à la ressemblance entre notre test et un autre test censé mesurer le même construit psychologique.

Validité discriminante
Degré auquel les scores d’une échelle ne sont pas associés
avec une échelle qui ne mesure pas le même construit

L’idéal pour tester rigoureusement la validité C/D est d’employer

la méthode de la matrice multitraits-multiméthodes

Tableau plein de couleurs :
Extériorisés avec Extériorisés : Convergente
Extériorisés avec Intériorisés : Discriminante

Note perso : si on n’a pas le p, ça veut dire que le p est non significatif, mais ce n’est pas sur ça qu’on se fie, ce n’est pas ça le plus important. Ce qui est important, c’est à quel point c’est proche de 1

Qu’est-ce que la validité de critère?

Réfère au degré auquel les scores à une échelle sont associés à l’adaptation (ou la performance) des individus
* Les scores à l’échelle sont donc comparés à ceux d’un critère externe
* Le critère devrait être une mesure objective et indépendante de l’instrument, mais reliée conceptuellement au construit d’intérêt (réseau nomologique)

IMPORTANT : Note perso : Quand ça vient du même instrument, ce n’est pas de la validité de critère! Il faut que ça soit entre deux instruments, pour évaluer la validité de critère! Il faut que ça soit “externe, indépendant, pas dans l’instrument”

Internet : La validité de critère est aussi appelée validité critériée, validité en lien avec un critère externe, ou encore validité pragmatique. Ce type de validité consiste à vérifier la capacité d’un instrument à distinguer les gens entre eux et, plus spécifiquement, à déterminer jusqu’à quel point ses résultats sont associés à une variable indépendante (variable critère) auxquels ils devraient normalement être associés.

Deux grands types de validité de critère

Concomitante et prédictive

Validité de critère concomitante, Deux façons de l’estimer

Corrélation avec un critère indépendant
* Test d’intelligence avec réussite académique (notes)
* Test d’empathie avec conduites délinquantes
Méthode des groupes contrastés
* On teste les différences de scores moyens entre des groupes
* e.g., Pour EDC, on prend un échantillon d’enfants déjà
identifiés avec des TC (par psychologues scolaires) et on les
compare avec un groupe d’enfants sans TC afin de déterminer si les scores à l’EDC distinguent bien les groupes

Validité de critère prédictive

Le degré auquel une mesure est capable de prédire un critère externe prospectivement, i.e. plus tard dans le temps
Besoin d’une étude longitudinale prospective
e.g., les scores à une échelle d’impulsivité à la fin de l’enfance peuvent-ils prédire l’abus de psychotropes lorsque les individus sont au début de l’adolescence, deux ans plus tard?
e.g., les scores sur une échelle de qualité de l’attachement
aux parents au préscolaire permettent-ils de prédire un
diagnostic d’anxiété de séparation plus tard, à l’entrée à
l’école ?

Validité incrémentielle

Forme de validité pas toujours présente dans les livres de
psychométrie, mais dans les faits, est une forme spécifique de validité de critère (Haynes & Lench, 2003)
* À quel point les scores à un test ont une « valeur ajoutée » pour prédire un critère externe, au-delà de la capacité d’autres facteurs (autres tests) prédictifs importants ?

Internet : La validité incrémentielle concerne l’apport supplémentaire d’un instrument psychométrique dans une situation donnée. Il s’agit de vérifier si et à quel point l’instrument permet d’obtenir de l’information supplémentaire au-delà de l’information offerte par d’autres sources ou instruments pertinents.

théorie de la décision

La théorie de la décision comprend une série de concepts
visant l’analyse des effets quantitatifs des décisions prises avec des tests.

Pertinent dans différents contextes de classification tels que
pour le dépistage, le diagnostic, la sélection du personnel, la
certification, la dérogation scolaire, etc.
* Les concepts de la théorie de la décision sont donc intimement liés à la validité de critère
* Il s’agit essentiellement de déterminer à quel point les scores d’un test peuvent classifier adéquatement les personnes dans des groupes

Internet (est-ce la même chose?) : La théorie de la décision tente à la fois de décrire les modalités conduisant un individu à prendre une décision (approche descriptive) ainsi qu’à fournir des outils à même de permettre une prise de décision optimale

Tableau 2x2

Page 41

* Sensibilité :

Capacité d’une échelle de procurer un résultat positif pour les personnes présentant le statut (e.g., un trouble) qu’elle prétend identifier Se rapporte donc à la capacité de détection Mon échelle est capable d'évaluer 83% des gens qui ont la condition clinique

* Spécificité :

Capacité d’une échelle de procurer un résultat négatif pour les personnes ne présentant pas le statut (ex., un trouble) qu’elle prétend identifier * Se rapporte donc à sa capacité de discrimination 75% : Mon échelle est capable de détecter 75% des cas qui n'ont PAS la condition

* Les indices de sensibilité et de spécificité sont...

* ...des observations empiriques de la performance rétrospective d’un test calculés à partir d’une classification de différents groupes diagnostiques (ou d’attributs autres) * On estime la proportion des individus dont le statut est connu en regard du trouble mesuré qui obtiennent un score au dessus ou au dessous d’un score critère * Ces indices sont déterminés par le score critère établi par les auteurs du test * Si le score critère suggéré pour identifier le trouble est changé, les indices de sensibilité et de spécificité de l’échelle vont aussi changer (voir Tableau) * Ces indices renseignent sur la capacité de classification d’une échelle ou d’un test lorsque ce dernier est utilisé avec des personnes dont le statut est connu * Toutefois, dans la pratique clinique, les tests sont utilisés avec des personnes dont le statut n’est pas connu (ou pas confirmé), par exemple pour le dépistage

PPP

La probabilité qu’un individu avec un résultat positif sur une échelle ait réellement le statut prédit Les PPN et PPN sont des indices de performance extrinsèques d’un test et ils dépendent de la prévalence du trouble * Autrement dit, pour une sensibilité et spécificité données, les PPP et PPN vont varier selon la prévalence * Sensibilité et spécificité sont des paramètres d’un test – ils sont seulement influencés par le score critère choisi (la prévalence est fixe, puisqu’elle est connue) * PPP et le PPN sont quant à eux des paramètres d’un test et de la prévalence du trouble * Règle générale pour l’ensemble des tests de dépistage : Lorsque la prévalence est faible, le PPN > PPP – et c’est l’inverse lorsque prévalence élevée

Deux problèmes potentiels avec les indices de sensibilité, spécificité et de pouvoir prédictif

1. L’estimation de ces indices statistiques dépend de la validité et de la fidélité du critère utilisé (e.g., est-ce que les diagnostics du DSM sont suffisamment valides et fiables ?) 2. L’estimation de la prévalence réelle dans différents contextes cliniques peut être difficile * Néanmoins, des estimés imprécis (sans être grossièrement incorrects) n’ont pas un impact important sur les estimés du pouvoir prédictif pour les échelles qui ont une sensibilité et spécificité élevées

Fiable VS valide

Fiable = tous les points sont proches entre eux Valide = Points proches du centre * Ne jamais oublier : autant la fidélité que la validité est une question de degré * La validité est un préalable à la fidélité * À quoi sert de ne pas faire d’erreur de mesure si on ne sait pas ce qu’on mesure vraiment ? * La fidélité est une condition nécessaire à la validité * Est-ce qu’on mesure vraiment ce qu’on prétend mesurer si on fait beaucoup d’erreurs de mesure ? * Les deux sont interreliées empiriquement: les indices de validité sont directement influencés par le degré de fidélité * Quantité d’erreur influence la taille des corrélations; le nombre d’items aussi (Prophétie de Spearman)