Cours 5 Flashcards
Que veut dire évaluer la validité d’un instrument de mesure?
Chercher s’il mesure vraiment ce qu’il prétend/devrait mesurer, si l’échantillon d’items de l’échelle représente bien le construit qu’on veut mesurer
Que détermine le degré de validité?
L’interprétation et les inférences que l’on peut faire à partir des scores d’une échelle
Qu’est-ce qui est à prioriser, validité ou fidelité?
Validité mais plus négligé
Est-ce qu’on peut se fier au nom d’un teste/échelle pour savoir quel construit est mesuré?
NON
***La vraie question n’est pas «est-ce que ce test est valide ou pas», mais bien:
est-ce que ce test est une mesure valide de ce construit, pour cette population (1) et pour cette application particulière(2)
***La validité d’un test ou d’une mesure doit donc être évaluée relativement à trois aspects:
Est-ce qu’il mesure bien le construit qu’il prétend mesurer ?
Est-ce qu’il mesure bien ce construit pour la population ciblée (e.g., groupe d’âge, niveau académique, groupe clinique particulier, etc.) ?
Est-ce qu’il mesure bien ce construit pour une application particulière (e.g., classifier dans des groupes diagnostiques, donner une valeur quantitative sur continuum, etc.) ?
EXAM Les organisations professionnelles soulignent trois points clés à propos de la validité des tests:
1) La validité concerne l’interprétation des scores procurés par un test pour un construit spécifique; ce n’est pas une caractéristique du test
2) La validité est une question de degré ; ce n’est pas une question absolue, de «tout ou rien»
3) La validité d’un test repose sur de solides bases théoriques et empiriques
EXAMecq on peut mesurer la validité d’un test?
NON, on peut slmt mesurer la validité des mesures
V ou F La vraisemblance (validité d’apparence) n’est pas une forme/source de validité?
VRAI, elle est reliée au jugement des personnes qui sont évaluées avec le teste ET aux personnes qui utilisent le test
Qu’est-ce qui détermine si une mesure détient une bonne vraisemblance?
lorsque les personnes évaluées ou celles qui l’utilisent jugent qu’elle «semble pertinente et adéquate» pour mesurer le construit
*les auteurs du test ne peuvent donc pas juger de la vraisemblance de leur propre test
V ou F Si un instrument ne parait pas vraisemblable pour les personnes concernées dans les situations concrètes d’évaluation, cela peut devenir une menace à la validité
Vrai
Plusieurs facteurs peuvent influencer la vraisemblance (capacités cognitives des répondants, santé mentale, personnalité, etc), peuvent influencer la validité mais pas mesure de validité en soi
Qu’est-ce que la validité de contenu?
Réfère au degré de représentativité des items (questions) utilisés pour mesurer un construit
Explique «la plupart du temps, la validité de contenu est établie de façon déductive»
- Les auteurs.trices du test demandent à un groupe d’experts.es ***indépendants.es de se prononcer sur la pertinence des items
- On demande est-ce que :
1) Chaque item individuellement correspond bien au construit?
2) Tous les items d’une échelle considérés comme un groupe constituent un échantillon représentatif de tous les domaines (et sous-domaines) expliqués par le construit d’intérêt ?
Pourquoi la représentativité est centrale à la validité de contenu?
- Tous les domaines (ex. agressivité) (et sous-domaines (ex. agressivité physique/morale)) du construit sont-ils représentés ?
ex, Échelle d’agressivité: agressivité directe, indirecte, réactive, proactive, physique, relationnelle, etc. - Éviter la sur- ou sous-représentation d’items des différents sous-domaines du construit
À partir de quoi les chercheurs.euses définissent un construit (et donc, son contenu) ?
- Cadre théorique
- Recherches empiriques (recension)
- Connaissances et expériences professionnelles/pratiques
Deux types de validité de contenu :
- Nominale : auteurs.trices du test
- Consensuelle : groupe de spécialistes indépendants** (méthode souhaitée et empirique)
Décris la méthode consensuelle
**On demande à des experts.es indépendants.es d’estimer
- à quel point (degré) chacun des items d’un test est pertinent et représentatif du construit d’intérêt
- à quel point (degré) l’ensemble des items constitue un bon échantillon représentatif du contenu du construit
Afin de quantifier le degré de validité de contenu, on donne aux experts.es un choix de réponse avec une gradation à propos de chaque item afin de systématiser le tout
Puisque nous avons des données numériques, on peut donc calculer un Indice de validité de contenu
On calcule un indice pour chaque item (IVC-I) et pour l’échelle totale (IVC-É)
V ou F *la validité de contenu peut se faire sans aucune méthode quantitative
Vrai
EXAMV ou F Il existe des échelles valides à 100%
Faux, il n’existe pas d’échelle totalement valide ou pas valide, c’est une question de degré
**Nomme les 2 menaces à la validité de contenu
1- Inclusion de contenu conceptuellement non pertinent
e.g., des items d’hyperactivité sont intégrés dans une échelle d’inattention
2- Sous-représentation conceptuelle de certains domaines du construit
e.g., Théoriquement, le construit Extraversion inclue les domaines de l’activité, la sociabilité, la dominance sociale et la recherche de sensation, mais une échelle ne contient que des items de sociabilité et de dominance sociale
Qu’est-ce que la validité de construit?
- Réfère au degré de (a) reproductibilité de la structure interne théorique sous-jacente à l’instrument ainsi que les (b) relations du construit d’intérêt avec d’autres construits externes
Nomme les 2 façons de vérifier la validité de construit
- Validité factorielle
- Validité convergente / discriminante
Avant d’entamer ces évaluations, il faut toutefois bien connaitre la théorie sous-jacente au construit —> réseau nomologique
Qu’est-ce que le réseau nomologique?
la théorie expliquant le construit par le biais de ses interrelations avec d’autres construits
Qu’est-ce que la validité factorielle?
- Vérifier si la structure factorielle théorique qui représente le construit est reproduite sur le plan empirique (i.e., avec des données)
- L’objectif est de vérifier deux aspects inter-reliés de la structure factorielle théorique
1) Les items sont-ils significativement (statistiquement) associés au facteur (construit) ?
2) Dans le cas d’un instrument multidimensionnel,
Les items sont-ils significativement associés au bon facteur et non-associés aux autres facteurs ?
Dans le cas d’une structure hiérarchique, est-ce que les sous-domaines sont significativement associés au domaine général (e.g., traits spécifiques associés à trait général) ?
Nomme les 2 types de validité factorielle et explique les
1) analyse factorielle exploratoire
- On identifie des regroupements d’items inter-corrélés, signifiant que les individus tendent à y répondre de façon similaire
- Critère classique : on devrait avoir des saturations factorielles de 0,40 ou plus pour les items associés à un facteur
2) analyse factorielle confirmatoire
- Le chercheur.euse impose une structure stricte a priori à la matrice de corrélations (ou de covariances) et teste si elle correspond aux données
- devrait être employée à l’étape de la validation (pcq structure connue)
Qu’est-ce que la validité convergente?
Degré auquel les scores d’une échelle sont associés avec ceux d’une autre échelle existante qui mesure le même construit théorique (je test la même chose avec un autre instrument)
Qu’est-ce que la validité discriminante?
Degré auquel les scores d’une échelle ne sont pas associés avec une échelle qui ne mesure pas le même construit
*on souhaite donc une corrélation faible pcq pas le même construit
Quelle est la méthode idéale pour tester la validité convergente/discriminante?
matrice multitraits-multiméthodes
Qu’est-ce que la validité de critère (validité pragmatique)? Nomme les 2 type
- Degré auquel les scores à une échelle sont associés à l’adaptation (ou la performance) des individus
- Les scores à l’échelle sont donc comparés à ceux d’un critère externe
- Le critère devrait être une mesure objective et indépendante, mais reliée conceptuellement au construit d’intérêt (réseau nomologique)
- 2 types: concomitante et prédictive
Quelles sont les 2 façons d’estimer la validité de critère concomitante?
1) Corrélation avec un critère indépendant
Test d’intelligence avec réussite académique (notes)
Test d’empathie avec conduites délinquantes
2) Méthode des groupes contrastés
On teste les différences de scores moyens entre des groupes
e.g., Pour EDC, on prend un échantillon d’enfants déjà identifiés avec des TC (par psychologues scolaires) et on les compare avec un groupe d’enfants sans TC afin de déterminer si les scores à l’EDC distinguent bien les groupes
Qu’est-ce que la validité de critère prédictive?
- Degré auquel une mesure est capable de prédire un critère externe prospectivement, i.e. plus tard dans le temps
- Besoin d’une étude longitudinale prospective
- ex. les scores sur une échelle de qualité de l’attachement aux parents au préscolaire permettent-ils de prédire un diagnostic d’anxiété de séparation plus tard, à l’entrée à l’école ?
Qu’est-ce que la validité incrémentielle?
À quel point les scores à un test ont une «valeur ajoutée» pour prédire un critère externe, au-delà de la capacité d’autres facteurs (autres tests) prédictifs importants ?
*ecq mon échelle prédit au-delà de ce que ce que j’évalue?
- présente en contexte de classification et de révision d’un test (ex. scores de la nouvelle version prédisent mieux un critère au-delà de facteurs de contrôle OU procurent une meilleure sensibilité
Qu’est-ce que la théorie de la décision?
- détermine à quel point les scores d’un test peuvent classifier adéquatement les personnes dans des groupes
- intimement lié à la validité de critère
Qu’est-ce que la sensibilité?
- Capacité d’une échelle de procurer un résultat positif pour les personnes présentant le statut (e.g., un trouble) qu’elle prétend identifier
- capacité de détection
- ex. Avec l’EDC : proportion d’enfants obtenant un score égal ou supérieur à un score critère donné (ex., T = 60) parmi tous les enfants qui présentent réellement un TC
Qu’est-ce que la spécificité?
- Capacité d’une échelle de procurer un résultat négatif pour les personnes ne présentant pas le statut (ex., un trouble) qu’elle prétend identifier
- capacité de discrimination
- ex. avec l’EDC : proportion d’enfants obtenant un score inférieur à un score critère donné (ex., T = 59 et moins) parmi tous les enfants qui n’ont pas un TC
Pour la sensibilité et spécificité, on utilise des individus dont le statut est…
Connu en regard du trouble mesuré, qui obtiennent un score au-dessus ou en-dessous d’un score critère
*Ces indices renseignent donc sur la capacité de classification d’une échelle/test lorsque ce dernier est utilisé avec des personnes dont le statut est connu MAIS dans la pratique ces tests sont utilisés avec des personnes dont le statut n’est pas connu
*en clinique, l’évaluateur évalue plutôt le niveau de confiance qui peut être accordé à un résultat positif/nég pour un individu DONC on veut savoir si la probabilité qu’un individu présente réellement le trouble étant donné un résultat positif à un test –>pour ce faire, on calcule le pouvoir prédictif d’une échelle
Qu’est-ce que le pouvoir prédictif positif et négatif?
Positif: La probabilité qu’un individu avec un résultat positif sur une échelle ait réellement le statut prédit
–> proportion d’individus ayant un trouble qui obtiennent un résultat positif, parmi tout ceux qui ont obtenu un résultat supérieur au score critère
Nég: La probabilité qu’un individu avec un résultat négatif sur une échelle n’ait réellement pas le statut prédit
–> proportion d’individus n’ayant pas de trouble qui obtiennent un résultat négatif, parmi tout ceux qui ont obtenu un résultat inférieur au score critère
EXAMQuelle est la règle générale pour l’ensemble des tests de dépistage?
Lorsque la prévalence est faible, le PPN > PPP – et c’est l’inverse lorsque prévalence élevée
Nomme les 2 problèmes potentiels avec les indices de sensibilité, spécificité et pouvoir prédictif
1) L’estimation de ces indices statistiques dépend de la validité et de la fidélité du critère utilisé (ex, est-ce que les diagnostics du DSM sont suffisamment valides et fiables ?)
2) L’estimation de la prévalence réelle dans différents contextes cliniques peut être difficile
Néanmoins, des estimés imprécis (sans être grossièrement incorrects) n’ont pas un impact important sur les estimés du pouvoir prédictif pour les échelles qui ont une sensibilité et spécificité élevées
En quoi la validité et la fidélité sont interreliées?
- **la validité est un préalable à la fidélité (à quoi sert de pas faire erreur mesure si on sait pas ce qu’on mesure)
- fidélité est une condition à validité (ecq on mesure vrm ce qu’on prétend mesurer si on fait bcp erreurs de mesure?)
- quantité erreur influence taille des corrélations (moins faible= réduit corrélation)
Les chercheurs valident un instrument pour qui?
Une population particulière ou une utilisation particulière
(scores peuvent être valides et fiables pour une popu mais pas pour une autre)
***Fiabilité et validité sont une question de…
DEGRÉ