Cours 5 Flashcards

1
Q

Qu’est-ce que la validité? Qu’est-ce que le degré de validité?

A

Lorsqu’on évalue la validité d’un instrument de mesure, on veut généralement savoir s’il mesure vraiment ce qu’il prétend ou devrait mesurer.
On veut savoir si l’échantillon d’items (les questions) de l’échelle représente bien le construit qu’on veut mesurer.

Le degré de validité déterminer l’interprétation et les INFÉRENCES que l’on peut faire à partir des scores d’une échelle.

Donc, validité = degré d’inférences qu’on peut avoir, alors que fidélité = confiance qu’on a dans les scores.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

La validité d’un test ou d’une mesure doit etre évaluée selon quels trois aspects?

A
  1. Est-ce qu’il mesure bien le CONSTRUIT qu’il pr.tend mesurer?
  2. Est-ce qu’il mesure bien ce construit pour la POPULATION CIBLÉE?
  3. Est-ce qu’il mesure bien ce construit pour une APPLICATION PARTICULIÈRE (ex. classifier dans des groupes dx, donner une valeur quantitative, etc.)? - Pcqu’un instrument peut etre valide pour un type d’application, mais pas pour un autre.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quels sont les trois points clés que les organisations professionnelles (AERA, APA, NCME) soulignent à propos de la validité des tests?

A
  1. La validité concerne l’interprétation des SCORES procurés par un test pour un construit spécifique; ce n’est pas une caractéristique du test (ce sont les scores qui doivent etre valides)
  2. La validité est une question de DEGRÉ; ce n’est pas une question absolue, de tout ou rien
  3. La validité d’un test repose sur de solides bases théoriques ET empiriques.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Est-ce qu’un test peut etre considéré valide ou non?***

A

Non. Il y a des degrés (un continuum). La validité varie en fonction de plusieurs facteurs.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quelles sont les différentes SOURCES de validité?

A
  1. Contenu
  2. Construit
    - Factorielle
    - Convergente
    - Discriminante
  3. Critère
    - Concomitante
    - Prédictive
    - Incrémentielle

C’est le cumul de ces trois sources qui nous informe sur le degré de validité d’un instrument.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Qu’est-ce que la vraisemblance?

A
  • Aussi appelé validité d’apparence
  • N’est PAS une forme ou une source de validité
  • S’agit du degré auquel une mesure SEMBLE adéquate et reliée à un construit spécifique selon le jugement de a) les personnes qui sont évaluées avec le test et b) les personnes qui utilisent le test.
  • Une mesure détient une bonne vraisemblance lorsque les personnes évaluées ou celles qui l’utilisent jugent qu’elle semble pertinente et adéquate pour mesurer le construit.
  • Parfait confondue avec la validité de contenu

Les auteurs et autrices NE PEUVENT juger de la vraisemblance.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Pourquoi mesurer la vraisemblance?

A

Parce que si l’instrument ne parait pas valide ou vraisemblable pour les personnes évaluées ou les utilisateurs, cela peut devenir une menace à la validité.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quels sont des facteurs qui peuvent influencer la vraisemblance?

A
  • Contexte d’évaluation (endroit physique de l’administration, consignes, attitude et apparence)
  • Capacités cognitives des répondants
  • santé mental et état psychologique des répondants
  • Personnalité des répondants (certains répondent à l’extreme, d’autres sont tjrs incertains)
  • Motif de l’évaluation (désirabilité sociale)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Qu’est-ce que la validité de contenu? Est-elle établie de façon inductive ou déductive? ***

A

Réfère au degré de représentativité des items (questions) pour mesurer le construit.

La plupart du temps établie de façon déductive
- Les auteurs.trices du test demandent à un group d’experts indépendants de se prononcer sur la pertinence des items
*** Doit etre mesuré par des personnes INDÉPENDANTE pcq sinon il y a un risque de biais.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Quelles sont les deux questions que l’ont demande pour vérifier la validité de contenu?

A
  1. Chaque item individuellement correspond bien au construit?
  2. Tous les items d’une échelle considérés comme un groupe constituent un échantillon représentatif de tous les domaines et sous-domaines expliqués par le construit d’intéret?
    (si on considère tous les items ensemble)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

En quoi la représentativité est-elle centrale dans la validité de contenu?

A

Tous les domaines et sous-domaines du construit doivent etre représentés.
ex. Échelle d’agressivité doit inclure agressivité direct, indirecte, réactive, proactive, physique, relationnelle, etc.

Il faut éviter de sur ou sous représenter les différents sous-domaines du construit (il doit y avoir un équilibre entre tous les sous-domaines du construit).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Avant de construire une échelle, que doivent faire les auteurs?

A

Ils doivent tjrs décrire en détails et de façon compréhensive les différents domaines et sous-domaines du construit d’intéret.
(Il doit y avoir une définition précise du construit afin d’assurer une compréhension uniforme. De plus, toutes les catégories définies doivent etre représentées dans l’instrument. On not également l’importance relative de chacun.)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

À partir de quoi les chercheurs définissent un construit (et donc, son contenu)?

A

1) cadre théorique
2) recherches empiriques (recension)
3) connaissances et expériences professionnelles ou pratiques

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quels sont les deux types de VALIDITÉ de contenu?

A

Nominale: auteurs du test
Consensuelle: groupe de spécialistes indépendants (augmente le degré de confiance car sont des experts).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Comment peut-on estimer le degré de validité de contenu empiriquement?

A

On demande à des experts indépendants d’estimer:
a. à quel point (degré) CHACUN des items d’un test est pertinent et représentatif du construit d’intéret.
b. à quel point (degré) l’ENSEMBLE des items constitue un b on échantillon représentatif du conteny du construit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Comment peut-on quantifier le degré de validité de contenu?

A

On donne aux experts un choix de réponse avec une gradation à propos de chaque item afin de systématiser le tout.

Les choix de réponses pourrait aller comme suit:
Pas du tout pertinent ou représentatif = 0
Un peu pertinent = 1
Assez pertinent = 2
Très pertinent = 3

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Que peut-on faire avec les données numériques des choix de réponses avec une gradation? Qu’est-ce qu’implique cette démarche?

A

Nous pouvons calculer un indice de validité de contenu.

On calcul un indice pour chaque item (IVC-1) et pour l’échelle totale (IVC-É):

IVC-1 = Nombre d’experts qui ont jugé l’item représentatif, divisé par le nombre total d’experts.

IVC-É = Proportion d’items jugés représentatifs (la moyenne des IVC-1) divisé par le nombre total d’experts.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Quelles sont les deux grandes menaces à la validité de contenu?

A
  1. Inclusion de contenu conceptuellement non pertinent (complique nos inférences lorsqu’il y a des items qui ne sont pas pertinents pour mesurer le construit)
  2. Sous-représentation conceptuelle de certains domaines du construit (s’il y a plusieurs sous-domaines pour un construit et que seulement certains sont représentés par les items, la validité en souffre puisque ça veut dire que pas tout le contenu est mesuré - pas représentatif du construit)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Qu’est-ce que la validité de construit?

A

Elle réfère au degré de a) reproductibilité de la structure interne théorique sous-jacente à l’instrument ainsi que les b) relations du construit d’intéret avec d’autres construits externes (doit comparer à d’autres construits ne faisant pas partie de l’instrument).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Quelles sont les deux façons de vérifier la validité de construit?

A
  1. Validité factorielle
  2. Validité convergente ou discriminante
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Que faut-il bien connaitre avant d’entamer les deux évaluations servant à vérifier la validité de construit?

A

La théorie sous-jacente du construit.

22
Q

Qu’est-ce que le réseau nomologique?

A

Il s’agit de la théorie expliquant le construit par le biais de ses interrelations avec d’AUTRES construits.

Nomologie = l’étude des lois (implique bien plus qu’une liste de domaines et sous-domaines)

Le réseau nomologique devrait représenter la structure interne et les interrelations (ordonnées et prévisibles) entre les domaines (ou sous-domaines) importants du construit et des construits externes théoriquement importants

Le réseau nomologique concerne souvent des relations concurrentes, mais peut inclure des facteurs étiologiques (ex. précurseurs, ou facteurs de risque du construit) et des conséquences développementales plus distales

Le réseau nomologique devrait tjrs etre dans le manuel du test, mais y est rarement.

22
Q

Qu’est-ce que le réseau nomologique?

A

Il s’agit de la théorie expliquant le construit par le biais de ses interrelations avec d’AUTRES construits.

Nomologie = l’étude des lois (implique bien plus qu’une liste de domaines et sous-domaines)

Le réseau nomologique devrait représenter la structure interne et les interrelations (ordonnées et prévisibles) entre les domaines (ou sous-domaines) importants du construit et des construits externes théoriquement importants

Le réseau nomologique concerne souvent des relations concurrentes, mais peut inclure des facteurs étiologiques (ex. précurseurs, ou facteurs de risque du construit) et des conséquences développementales plus distales

Le réseau nomologique devrait tjrs etre dans le manuel du test, mais y est rarement.

23
Q

Qu’est-ce que la validité factorielle?

A

On veut vérifier si la structure factorielle théorique qui représente le construit est reproduite sur le plan empirique (avec des données).

On utilise généralement le terme “facteur” pour représenter une dimension latente, d’ou l’utilisation du terme validité factorielle

24
Q

Quelle est la définition d’un facteur?

A

Une réduction parcimonieuse de plusieurs variables (items ou questions) en une variable latente hypothétique (un construit qu’on pense qui existe).
- Dans les instruments multidimensionnels, les items se regroupent en plusieurs facteurs

(Normalement, on veut s’assurer que chaque item est lié à un seul construit, mais lorsque multidimensionnel, il y a des items qui sont liés à plusieurs échelles.)

25
Q

Quel est l’objectif de la validité factorielle?

A

L’objectif est de vérifier deux aspects inter-reliés de la structure factorielle théorique

  1. Les items sont-ils significativement (statistiquement) associés au facteur (construit)?
  2. Dans le cas d’un instrument multidimensionnel,
    a) les items sont-ils significativement associés au bon facteur et non-associés aux autres facteurs? (les items sont-ils associés à la bonne échelle?)
    b) dans le cas d’une structure hiérarchique, est-ce que les sous-domaines sont significativement associés au domaine général (ex. les traits spécifiques associés à un trait général)
26
Q

Qu’est-ce que ça veut dire si les items sont statistiquement significatifs?

A

Veut dire que représente bien le construit (le facteur).

27
Q

Qu’est-ce que l’analyse factorielle exploratoire?
Quel est le critère classique?

A

On identifie des regroupements d’items inter-corrélés, signifiant que les individus tendant à y répondre de façon similaire. EX. si les personnes ont tendance à répondre oui à la q1, ils ont aussi tendance à répondre oui à la q5 et q8 (ces items seront donc regroupés dans un meme facteur).
- On regroupe les items qui sont correlés (pour lesquels les gens ont tendance à répondre de la meme façon).

Le chercheur n’impose aucune restriction à la matrice de corrélations entre les items (il n’y a pas de biais, ce sont les statistiques qui parlent)

Critère classique: on devrait avoir des saturations factorielles de 0,40 ou plus pour les items associés à un facteur. (en d’autres mots, doit avoir d’une corrélation d’au moins .40 pour que les échelles soient suffisamment corrélés.

28
Q

Qu’est-ce que l’analyse factorielle confirmatoire?

A

Le chercheur impose une structure stricte a priori à la matrice de corrélations et test si elle correspond aux données.
Ex. On programme quels items sont associés à un facteur, tout en leur imposant une corrélation de 0 avec les autres facteurs.
(Donc, si l’item est suffisamment corrélé, on le garde avec le facteur, sinon on met une corrélation de 0 pour simplifier le tout et on met l’item avec un autre facteur. En mettant les 0, on met de l’ordre. Les items avec 0 pourront etre transférés dans d’autres facteurs.)

Ces la méthode qu’il faudrait normalement employer à l’étape de la validation puisque la structure est supposée etre connue.
- Mais encore trop peu utilisé en psychométrie, en partie pcq les analyses statistiques sont plus complexes.

ICI, ON TEST LA STRUCTURE THÉORIQUE. À l’étape de la validation, on est supposé déjà connaitre la structure.*

29
Q

Qu’est-ce que la validité convergente?

A

Degré auquel les scores d’une échelle sont associés avec ceux d’une autre échelle existante qui mesure le meme construit théorique.

(Ici, on tente de voir si les scores sont correlés abvec d’utres échelles (instruments) qui mesurent le meme construit. On veut qu’il y ait une corrélation (idéalement très forte) entre les différentes échelles pour un meme facteur.

Ex. on utilise deux mesures différentes (l’entrevue et le questionnaire) pour mesurer les problèmes extériorisés (le meme construit). Ici, il devrait y avoir une corrélation statistiquement significative.

30
Q

Qu’est-ce que la validité discriminante?

A

Degré auquel les scores d’une échelle ne sont PAS associés avec une échelle qui ne mesure PAS le meme construit.

Ici, la nouvelle échelle devrait etre non corrélé, ou très minimalement corrélé puisqu’il s’agit d’un construit DIFFÉRENT. Devrait y avoir une corrélation non statistiquement significative.

31
Q

Qu’est-ce que la validité de critère?

A
  • Aussi appelé validité pragmatique
  • Réfère au degré auquel les scores à une échelle sont associés à l’adaptation (ou la performance) des individus
  • Les scores à l’échelle sont donc comparés à ceux d’un critère externe
  • Le critère devrait etre une mesure objective et indépendante , mais reliée conceptuellement au construit d’intéret (réseau nomologique).
32
Q

Quels sont les deux grands types de validité de critère?

A
  • Concomitance
  • Prédictive
33
Q

Quelles sont les deux façons d’estimer la validité de critère concomitante?

A
  1. Corrélation avec un critère indépendant
    - Test d’intelligence avec réussite académique (notes)
    - Test d’empathie avec conduites délinquantes
    (Donc, on vient mettre à l’épreuve les scores obtenus à L’échelle en les comparant à un autre critère comme par ex les notes scolaires de la personne. Ici, la corrélation devrait etre forte.)
  2. Méthode des groupes contrastés
    - On teste les différences de scores moyens entre des groupes
    Ex. on prend un échantillon d’enfants qui ont déjà des TC et on les compare avec un groupe d’enfants sans TC afin de déterminer si les scores distinguent bien les groupes.
    (Ici, puisqu’on compare deux groupes différents, il devrait y avoir des différences significatives pour que l’échelle soit considérée valide).
34
Q

Qu’est-ce que la validité de critère prédictive?

A

Degré auquel une mesure est capable de prédire un critère externe PROSPECTIVEMENT (plus tard dans le temps). - On tente de prédire une relation (concernant un autre critère) à l’aide des scores obtenus.
Est-ce que les scores prédisent un critère qu’ils devraient prédire?

Besoin d’une étude longitudinale prospective
Ex. Est-ce que les scores sur une échelle de qualité de l’attachement permet de prédire un dx d’anxiété de séparation plus tard?

35
Q

Qu’est-ce que la validité incrémentielle en contexte de classification et lorsque appliqué à la révision d’un test?

A

En contexte de classification:
Les scores de la nouvelle échelle doivent procurer une meilleure sensibilité et spécificité qu’une autre échelle similaire.
- Sur le plan clinique, ceci signifie qu’on prend possiblement de meilleures décisions avec la nouvelle échelle.

Peut aussi s’appliquer à la révision d’un test
- Les scores de la nouvelle version a) prédisent mieux un critère au-dela de facteurs de controle, ou encore b) procurent une meilleure sensibilité et spécificité que l’ancienne version

36
Q

Qu’est-ce que la théorie de la décision dans la validité de critère?

A

La théorie de décision comprend une série de concepts visant l’analyse des effets quantitatifs des décisions prises avec des tests.
(Permet l’analyse de la décision de classifier les gens dans certains groupes - ex. plus ou moins à risque).

Pertinent dans différents contextes de classification tels que pour le dépistage, le dx, la sélection du personnel, la certification, la dérogation scolaire, etc.

Les concepts de la théorie de la décision sont donc intimement liés à la validité de critère.

Il s’agit essentiellement de déterminer à quel point les scores d’un test peuvent CLASSIFIER ADÉQUATEMENT les personnes dans des groupes.

37
Q

Qu’est-ce que la validité de prédiction?

A

Si le statut réel de la personne est positif (que la personne a réellement un trouble), on fait le calcul de sensibilité.

Si le statut réel de la personne est qu’elle n’a pas de trouble, on fait le calcul de spécificité.

VOIR DIAPO 39 POUR BIEN COMPRENDRE.*

38
Q

Qu’est-ce que la sensibilité?

A

Capacité d’une échelle de procurer un résultat POSITIF pour les personnes présentant le statut (ex. un trouble) qu’elle prétend identifier.

Se rapproche donc à la CAPACITÉ DE DÉTECTION (capacité à identifier ceux qui ont le trouble).

Vrais positifs divisés par tous ceux qui ont vraiment le statut (ex. un trouble).
- ex. proportion d’enfants qui ont obtenu un score égal ou supérieur à un score critàre donné, parmi tous les enfants qui présentent réellement le trouble

39
Q

Qu’est-ce que la spécificité?

A

Capacité d’une échelle de procurer un résultat NÉGATIF pour les personnes ne présentant pas le statut (ex. un trouble) qu’elle prétend identifier.

Se rapporte donc à sa CAPACITÉ DE DISCRIMINATION (capacité d’identifier ceux qui n’ont pas le trouble)

S’agit des vrais négatifs divisés par tous ceux qui n’ont réellement pas le statut (trouble)
- ex. proportion d’enfants obtenant un score inférieur à un score critère, parmi tous les enfants qui n’ont pas le trouble

40
Q

Y a-t-il un pourcentage critère qui permet de dire s’il s’agit d’un bon niveau de sensibilité ou de spécificité?

A

Non, dépend de la mesure, mais il devrait y avoir un certain équilibre (donc une bonne sensibilité ET une bonne spécificité).

41
Q

Quels sont les indices de sensibilité et de spécificité?

A

Les indices de sensibilité et de spécificité sont des observations empiriques de la PERFORMANCE RÉTROSPECTIVE d’un test calculés à partir d’une classification de différents groupes dx (ou d’attributs autres)
(À quel point l’échelle identifie ceux qui ont ou non le trouble.)
- On estime la proportion des individus dont le STATUT EST CONNU en regard d’un trouble mesuré, qui obtiennent un score au dessus ou au dessous d’un score critère.

Ces indices sont DÉTERMINÉS PAR LE SCORE CRITÈRE établi par les auteurs du test.

42
Q

Qu’est-ce qui arrive si le score critère suggéré pour identifier le trouble est changé?***

A

LES INDICES DE SENSIBILITÉ ET DE SPÉCIFICITÉ de l’échelle vont aussi CHANGER. (donc, la sensibilité et la spécificité sont conditionnels au critère).

43
Q

Les indices de spécificité et de sensibilité renseignent sur quoi?

A

Sur la capacité de classification d’une échelle ou d’un test lorsque ce dernier est utilisé avec des personnes DONT LE STATUT EST CONNU.

Toutefois, dans la pratique clinique, les tests sont utilisés avec des personnes dont le statut n’est pas connu (ou confirmé) - ex. dépistage.

44
Q

En clinique, quelle est la tache de l’évaluateur (concernant la sensibilité et la spécificité)?
Que faut-il calculer pour obtenir des indices probabilistes de ce genre?

A

De déterminer le NIVEAU DE CONFIANCE qui peut etre accordé à un résultat positif (ou un résultat négatif) pour un individu classifié.
- On veut savoir la PROBABILITÉ qu’un individu présente réellement le trouble, étant donné un résultat positif à un test. (on veut savoir la probabilité que le score est fiable)

Pour obtenir des indices probabilistes de ce genre, il faut calculer le POUVOIR PRÉDICTIF d’une échelle.

45
Q

Qu’est-ce que le pouvoir prédictif positif (PPP)?

A

La probabilité qu’un individu avec un résultat positif sur une échelle ait réellement le statut prédit.

46
Q

Qu’est-ce que le pouvoir prédictif négatif (PPN)?

A

La probabilité qu’un individu avec un résultat négatif sur une échelle n’ait réellement pas le statut prédit.

47
Q

Le PPN et le PPP sont des indices de quoi? Ils dépendent de quoi (vont changer en fonction de quoi)? *

A

Les PPN et les PPP sont des indices de PERFORMANCE EXTRINSÈQUES d’un test et ils dépendent de la prévalence du trouble.

Autrement dit, pour une sensibilité et spécificité données, les PPP et PPN vont VARIER selon la prévalence.

La sensibilité et spécificité sont des paramètres d’un test - ils sont seulement influencés par le score critère choisi (la prévalence est fixe, puisqu’elle est connue).

Les PPP et PPN eux, sont des PARAMÈTRES D’UN TEST ET DE LA PRÉVALENCE DU TROUBLE. DONC, ILS VONT CHANGER SI ON CHANGE LE CRITÈRE, MAIS AUSSI SI ON CHANGE LA PRÉVALENCE.*

48
Q

Qu’est-ce qui est optimal concernant le pourcentage du pouvoir prédictif?

A

La pouvoir prédictif est optimal lorsqu’il est élevé à la fois pour le pouvoir prédictif positif ET négatif.

  • Lorsque la prévalence est élevée, on peut bcp se fier au score positif, mais pas bcp au score négatif.
  • Lorsque la prévalence est faible, on peut pas bcp se fier au pouvoir prédictif positif, mais bcp au pouvoir prédictif négatif.

C’est pourquoi c’est optimal lorsque le pourcentage de pouvoir prédictif est élevé pour les deux.

49
Q

Quelle est la règle générale pour l’ensemble des tests de dépistage (ex. échelle Dépis-Dép)?

A

Lorsque la prévalence est faible, le PP négatif est plus grand que le PP positif.

Lorsque la prévalence est élevée, le PP positif est plus grand que le PP négatif.

50
Q

Quels sont les deux problèmes potentiels avec les indices de sensibilité, spécificité et de pouvoir prédictif?

A
  1. L’estimation de ces indices statistiques dépend de la validité et de la fidélité du critère utilisé (ex. est-ce que les dx du DSM sont suffisamment valides et fiables?
  2. L’estimation de la prévalence réelle dans différents contextes cliniques peut etre difficile
    - Néanmoins, des estimés imprécis (sans etre grossièrement incorrects) n’ont pas un impact important sur les estimés du pouvoir prédictif pour les échelles qui ont une sensibilité et spécificité élevée.
51
Q

En quoi la validité et la fidélité sont interreliés?

A

La validité est un préalable à la fidélité
- À quoi sert de ne pas faire d’erreur de mesure si on ne sait pas ce qu’on mesure vraiment?

La fidélité est une condition nécessaire à la validité
- Est-ce qu’on mesure vraiment ce qu’on prétend mesurer si on fait bcp d’erreurs de mesure?

Les deux sont interreliées: Les indices de validité sont directement influencés par le degré de fidélité.
- Quantité d’erreur influence la taille des corrélations ; le nombre d’items aussi (prophétie de Spearman)