Chapitre 5 Flashcards

1
Q

Validité
Lorsqu’on évalue la validité d’un instrument de mesure, on veut généralement savoir…

A

s’il mesure vraiment ce qu’il prétend ou devrait mesurer. On veut savoir si l’échantillon d’items (i.e., les questions) de
l’échelle représente bien le construit qu’on veut mesurer
* Le DEGRÉ de validité détermine l’interprétation et les inférences que l’on peut faire à partir des scores d’une échelle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Est-ce que ce test est une mesure valide de ce
_____, pour cette _______ et pour cette _________
particulière

A

Est-ce que ce test est une mesure valide de ce
construit, pour cette population et pour cette application
particulière

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Les organisations professionnelles soulignent trois points clés à propos de la validité des tests

A

La validité concerne l’interprétation des scores procurés
par un test pour un construit spécifique; ce n’est pas une
caractéristique du test

  1. La validité est une question de DEGRÉ ; ce n’est pas une
    question absolue, de « tout ou rien »
  2. La validité d’un test repose sur de solides bases théoriques ET empiriques
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

EXAMEN :
Vrai ou faux : La “vraisemblance” est une source de validité

A

FAUX

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

3 Différentes sources de validité (IMPORTANT : C’est source (et non type), car chacune contribue à la validité)

A
  • Contenu
  • De construit
  • Critère
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Vraisemblance

A
  • Aussi appelée validité d’apparence (« face validity »)
  • N’est pas une forme ou une source de validité
  • Le degré auquel une mesure semble adéquate et reliée à un construit spécifique selon le jugement de (a) les personnes qui sont évaluées avec le test (i.e., clients.es, profanes, non-experts.es qui sont évalués.es) et/ou (b) les personnes qui utilisent le test (i.e., intervenants.es, mais peut aussi être des représentants légaux
    reliés à la population ciblée, etc., par ex. parents, enseignants, etc.) LES AUTEURS DU TEST NE SONT PAS LÀ-DEDANS.
  • Une mesure détient une bonne vraisemblance lorsque les
    personnes évaluées ou celles qui l’utilisent jugent qu’elle « semble pertinente et adéquate » pour mesurer le construit
  • Si l’instrument ne paraît pas valide ou vraisemblable pour les personnes évaluées/utilisatrices dans les situations concrètes d’évaluation, cela peut devenir une menace à la validité
  • e.g., mesurer le niveau d’agressivité d’un enfant en lui faisant faire un dessin ?
  • e.g., l’item « je sens parfois mon âme sortir de mon corps »
    serait-il perçu comme peu valide dans plusieurs contextes
    (e.g., sélection du personnel) ?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Plusieurs facteurs peuvent influencer la vraisemblance

A
  • Format de présentation de l’instrument
  • Contexte d’évaluation (e.g., endroit physique de
    l’administration, les consignes, attitude et apparence physique de l’évaluateur, etc.)
  • Capacités cognitives des répondants.es
  • Santé mentale et état psychologique des répondants.es
  • Personnalité des répondants.es
  • Motif de l’évaluation (désirabilité sociale [+ ou -])
  • etc.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

IMPORTANT : Validité de contenu

A

Réfère au degré de représentativité des items (questions)
utilisés pour mesurer un construit
* La plupart du temps établie de façon déductive
* Les auteurs du test demandent à un groupe d’experts INDÉPENDANTS de se prononcer sur la pertinence des items

  • On demande est-ce que :
    1. Chaque item individuellement correspond bien au construit ?
    2. Tous les items d’une échelle considérés comme un groupe
    constituent un échantillon représentatif de tous les domaines (et sous-domaines) du construit d’intérêt ?
  • La représentativité est centrale : Tous les domaines (et sous-domaines) du construit sont-ils représentés ?
    *e.g., Échelle d’impulsivité: impulsivité cognitive, impulsivité
    émotionnelle, impulsivité comportementale, etc.
  • Éviter la sur- ou sous-représentation d’items des différents
    sous-domaines du construit

Internet : La validité de contenu évalue dans quelle mesure les divers items ou épreuves d’un instrument psychométrique sont représentatifs du ou des construits mesurés et de leurs différentes facettes. Ainsi, lorsque l’on cherche à établir la validité de contenu d’un instrument on se demandera, d’une part, si les items ou épreuves qui le composent sont des indicateurs valides du ou des concepts mesurés et d’autre part, on se demandera si tous les aspects ou facettes du ou des concepts évalués sont mesurés adéquatement par les items ou épreuves qui composent l’instrument.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

À partir de quoi les chercheurs définissent un construit (et donc, son contenu) ?

A

1) Cadre théorique
2) Recherches empiriques (recension)
3) Connaissances et expériences professionnelles/pratiques

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

IMPORTANT
Deux types de validité de contenu :

A
  • Nominale : auteurs du test
  • Consensuelle : groupe de spécialistes indépendants
    IMPORTANT : Consensuelle est meilleur que nomimale
  • Avec une échelle de mesure quantitative, on demande à des experts indépendants d’estimer
    A. à quel point (degré) chacun des items d’un test est
    pertinent et représentatif du construit d’intérêt
    B. à quel point (degré) l’ensemble des items constitue un bon échantillon représentatif du contenu du construit
  • Puisque nous avons des données numériques (0=pas pertinent, 3=très pertinent), on peut donc calculer un Indice de validité de contenu (IVC). On calcule un indice pour chaque item (IVC-I) et pour l’échelle totale (IVC-É)
    IVC-I = Nombre d’experts.es qui ont jugé l’item représentatif
    (choix 2 ou 3), divisé par le nombre total d’experts.es
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Il y a deux grandes menaces à la validité de contenu :

A
  1. Inclusion de contenu conceptuellement non pertinent
    * e.g., des items d’hyperactivité sont intégrés dans une échelle d’inattention
  2. Sous-représentation conceptuelle de certains domaines du construit
    * e.g., Théoriquement, le construit Extraversion inclue les domaines de l’activité, la sociabilité, la dominance sociale et la recherche de sensation, mais une échelle ne contient que des items de sociabilité et de dominance sociale
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Validité de construit
- C’est quoi?
- 2 façons de la mesurer

A
  • Réfère au degré de (a) reproductibilité de la structure interne théorique sous-jacente à l’instrument ainsi que les (b) relations du construit d’intérêt avec d’autres construits externes (INTERNET : La validité de construit est également nommée validité théorique ou encore validité conceptuelle par certains auteurs. Ce type de validité vise à s’assurer que l’instrument mesure vraiment le ou les construits qu’il a été conçu pour mesurer et qu’il offre une mesure adéquate du modèle théorique sur lequel il s’appuie.)
  • Deux grandes façons de la vérifier :
    1. Validité factorielle
    2. Validité convergente / discriminante
  • Avant d’entamer ces évaluations, il faut toutefois bien connaitre la théorie sous-jacente au construit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Réseau nomologique

A

Le réseau nomologique est la théorie expliquant le construit par le biais de ses interrelations avec d’autres construits.

Nomologie est « l’étude des lois », donc bien plus qu’une liste de domaines ou sous-domaines. lois = relations entre différents concepts

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Validité factorielle

A

On veut vérifier si la structure factorielle théorique qui
représente le construit est reproduite sur le plan empirique (i.e., avec des données). (INTERNET : L’analyse factorielle désigne une série de techniques qui visent à regrouper statistiquement les variables d’un questionnaire qui sont associées entre elles)

L’objectif est de vérifier deux aspects inter-reliés de la
structure factorielle théorique
1. Les items sont-ils significativement (statistiquement)
associés au facteur (construit) ?
2. Dans le cas d’un instrument multidimensionnel,
a) Les items sont-ils significativement associés au bon facteur et non-associés aux autres facteurs ?
b) Dans le cas d’une structure hiérarchique, est-ce que les
sous-domaines sont significativement associés au domaine
général (e.g., traits spécifiques associés à trait général) ?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quels sont les 2 types de Validité factorielle?

A
  • Analyse factorielle exploratoire
  • On identifie des regroupements d’items inter-corrélés, signifiant que les individus tendent à y répondre de façon similaire
  • e.g., Si les répondants.es ont tendance à répondre oui à la Q#1ont aussi tendance à répondre oui à Q#5 et à Q#8, ces items seront donc regroupés dans un même facteur
  • Le chercheur n’impose aucune restriction à la matrice de corrélations (ou de covariances) entre les items
  • Critère classique : on devrait avoir des saturations factorielles de 0,40 ou plus pour les items associés à un facteur
  • Analyse factorielle confirmatoire
    Le chercheur impose une structure stricte a priori à la
    matrice de corrélations (ou de covariances) et teste si elle
    correspond aux données
  • i.e., on programme quels items sont associés à un facteur, tout en leur imposant une corrélation de 0 avec les autres facteurs
  • C’est la méthode qu’il faudrait normalement employer à l’étape de la validation puisque la structure est supposée être connue
  • Encore trop peu employée en psychométrie, en partie parce que les analyses statistiques sont plus complexes
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q
  • Validité convergente VS validité discriminante
A
  • Validité convergente
    Degré auquel les scores d’une échelle sont associés avec ceux d’une autre échelle existante qui mesure le même construit théorique

Internet : La validité convergente veille à la ressemblance entre notre test et un autre test censé mesurer le même construit psychologique.

  • Validité discriminante
    Degré auquel les scores d’une échelle ne sont pas associés
    avec une échelle qui ne mesure pas le même construit
17
Q
  • L’idéal pour tester rigoureusement la validité C/D est d’employer
A

la méthode de la matrice multitraits-multiméthodes

Tableau plein de couleurs :
Extériorisés avec Extériorisés : Convergente
Extériorisés avec Intériorisés : Discriminante

Note perso : si on n’a pas le p, ça veut dire que le p est non significatif, mais ce n’est pas sur ça qu’on se fie, ce n’est pas ça le plus important. Ce qui est important, c’est à quel point c’est proche de 1

18
Q

Qu’est-ce que la validité de critère?

A

Réfère au degré auquel les scores à une échelle sont associés à l’adaptation (ou la performance) des individus
* Les scores à l’échelle sont donc comparés à ceux d’un critère externe
* Le critère devrait être une mesure objective et indépendante de l’instrument, mais reliée conceptuellement au construit d’intérêt (réseau nomologique)

IMPORTANT : Note perso : Quand ça vient du même instrument, ce n’est pas de la validité de critère! Il faut que ça soit entre deux instruments, pour évaluer la validité de critère! Il faut que ça soit “externe, indépendant, pas dans l’instrument”

Internet : La validité de critère est aussi appelée validité critériée, validité en lien avec un critère externe, ou encore validité pragmatique. Ce type de validité consiste à vérifier la capacité d’un instrument à distinguer les gens entre eux et, plus spécifiquement, à déterminer jusqu’à quel point ses résultats sont associés à une variable indépendante (variable critère) auxquels ils devraient normalement être associés.

19
Q

Deux grands types de validité de critère

A
  • Concomitante et prédictive
20
Q

Validité de critère concomitante, Deux façons de l’estimer

A
  1. Corrélation avec un critère indépendant
    * Test d’intelligence avec réussite académique (notes)
    * Test d’empathie avec conduites délinquantes
  2. Méthode des groupes contrastés
    * On teste les différences de scores moyens entre des groupes
    * e.g., Pour EDC, on prend un échantillon d’enfants déjà
    identifiés avec des TC (par psychologues scolaires) et on les
    compare avec un groupe d’enfants sans TC afin de déterminer si les scores à l’EDC distinguent bien les groupes
21
Q

Validité de critère prédictive

A
  • Le degré auquel une mesure est capable de prédire un critère externe prospectivement, i.e. plus tard dans le temps
  • Besoin d’une étude longitudinale prospective
  • e.g., les scores à une échelle d’impulsivité à la fin de l’enfance peuvent-ils prédire l’abus de psychotropes lorsque les individus sont au début de l’adolescence, deux ans plus tard?
  • e.g., les scores sur une échelle de qualité de l’attachement
    aux parents au préscolaire permettent-ils de prédire un
    diagnostic d’anxiété de séparation plus tard, à l’entrée à
    l’école ?
22
Q

Validité incrémentielle

A

Forme de validité pas toujours présente dans les livres de
psychométrie, mais dans les faits, est une forme spécifique de validité de critère (Haynes & Lench, 2003)
* À quel point les scores à un test ont une « valeur ajoutée » pour prédire un critère externe, au-delà de la capacité d’autres facteurs (autres tests) prédictifs importants ?

Internet : La validité incrémentielle concerne l’apport supplémentaire d’un instrument psychométrique dans une situation donnée. Il s’agit de vérifier si et à quel point l’instrument permet d’obtenir de l’information supplémentaire au-delà de l’information offerte par d’autres sources ou instruments pertinents.

23
Q

théorie de la décision

A

La théorie de la décision comprend une série de concepts
visant l’analyse des effets quantitatifs des décisions prises avec des tests.

Pertinent dans différents contextes de classification tels que
pour le dépistage, le diagnostic, la sélection du personnel, la
certification, la dérogation scolaire, etc.
* Les concepts de la théorie de la décision sont donc intimement liés à la validité de critère
* Il s’agit essentiellement de déterminer à quel point les scores d’un test peuvent classifier adéquatement les personnes dans des groupes

Internet (est-ce la même chose?) : La théorie de la décision tente à la fois de décrire les modalités conduisant un individu à prendre une décision (approche descriptive) ainsi qu’à fournir des outils à même de permettre une prise de décision optimale

24
Q

Tableau 2x2

A

Page 41

25
Q
  • Sensibilité :
A

Capacité d’une échelle de procurer un résultat
positif pour les personnes présentant le statut (e.g., un trouble) qu’elle prétend identifier
Se rapporte donc à la capacité de détection

Mon échelle est capable d’évaluer 83% des gens qui ont la condition clinique

26
Q
  • Spécificité :
A

Capacité d’une échelle de procurer un résultat
négatif pour les personnes ne présentant pas le statut (ex., un trouble) qu’elle prétend identifier
* Se rapporte donc à sa capacité de discrimination

75% : Mon échelle est capable de détecter 75% des cas qui n’ont PAS la condition

27
Q
  • Les indices de sensibilité et de spécificité sont…
A
  • …des observations empiriques de la performance rétrospective d’un test calculés à partir d’une classification de différents groupes diagnostiques (ou d’attributs autres)
  • On estime la proportion des individus dont le statut est
    connu en regard du trouble mesuré qui obtiennent un score
    au dessus ou au dessous d’un score critère
  • Ces indices sont déterminés par le score critère établi par les auteurs du test
  • Si le score critère suggéré pour identifier le trouble est changé, les indices de sensibilité et de spécificité de l’échelle vont aussi changer (voir Tableau)
  • Ces indices renseignent sur la capacité de classification d’une échelle ou d’un test lorsque ce dernier est utilisé avec des personnes dont le statut est connu
  • Toutefois, dans la pratique clinique, les tests sont utilisés avec des personnes dont le statut n’est pas connu (ou pas confirmé), par exemple pour le dépistage
28
Q

PPP

A

La probabilité qu’un individu avec un résultat positif sur une échelle ait réellement le statut prédit

Les PPN et PPN sont des indices de performance extrinsèques
d’un test et ils dépendent de la prévalence du trouble
* Autrement dit, pour une sensibilité et spécificité données, les PPP et PPN vont varier selon la prévalence
* Sensibilité et spécificité sont des paramètres d’un test – ils sont seulement influencés par le score critère choisi (la prévalence est fixe, puisqu’elle est connue)
* PPP et le PPN sont quant à eux des paramètres d’un test et de la prévalence du trouble

  • Règle générale pour l’ensemble des tests de dépistage : Lorsque la prévalence est faible, le PPN > PPP – et c’est l’inverse lorsque prévalence élevée
29
Q

Deux problèmes potentiels avec les indices de sensibilité,
spécificité et de pouvoir prédictif

A
  1. L’estimation de ces indices statistiques dépend de la validité et de la fidélité du critère utilisé (e.g., est-ce que les diagnostics du DSM sont suffisamment valides et fiables ?)
  2. L’estimation de la prévalence réelle dans différents contextes cliniques peut être difficile
    * Néanmoins, des estimés imprécis (sans être grossièrement
    incorrects) n’ont pas un impact important sur les estimés du pouvoir prédictif pour les échelles qui ont une sensibilité et spécificité élevées
30
Q

Fiable VS valide

A

Fiable = tous les points sont proches entre eux
Valide = Points proches du centre

  • Ne jamais oublier : autant la fidélité que la validité est une
    question de degré
  • La validité est un préalable à la fidélité
  • À quoi sert de ne pas faire d’erreur de mesure si on ne sait pas ce qu’on mesure vraiment ?
  • La fidélité est une condition nécessaire à la validité
  • Est-ce qu’on mesure vraiment ce qu’on prétend mesurer si on fait beaucoup d’erreurs de mesure ?
  • Les deux sont interreliées empiriquement: les indices de validité sont directement influencés par le degré de fidélité
  • Quantité d’erreur influence la taille des corrélations; le nombre d’items aussi (Prophétie de Spearman)