cours 5 : Validité Flashcards

1
Q

Quelles est la propriété psychométrique la plus importante et la plus négligée?

A

la validité

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Qu’est-ce que la validité des scores/ instruments ?

A
  • Lorsqu’on évalue la validité d’un instrument de mesure, on veut généralement savoir s’il mesure vraiment ce qu’il prétend ou devrait mesurer (et non en partir un autre concept rattaché)
  • On veut savoir si l’échantillon d’items (i.e., les questions) de l’échelle représente bien le construit qu’on veut mesurer (ex. est-ce que les 10 questions choisies représentent bien la sensibilité maternelle)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Le degré de validité détermine quoi ?

A

détermine l’interprétation et les inférences que l’on peut faire à partir des scores d’une échelle (plus le degré de validité est élevé plus on peut faire des inférences solides, ex. se prononcer sur la condition d’une personne)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Est-ce que le nom d’un test ou d’une échelle continue un indice adéquat du construit mesuré?

A

Non, pas toujours

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quelle question doit-on poser au lieu de « « est-ce que ce test est valide ou pas » ?

A

« est-ce que ce test est une mesure valide de ce construit, pour cette population et pour cette application (utilisation) particulière »

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quels trois éléments doit-on évaluer pour déterminer la validité d’un test ou d’une mesure ?

A
  1. Est-ce qu’il mesure bien le construit qu’il prétend mesurer ?
     2. Est-ce qu’il mesure bien ce construit pour la population ciblée (e.g., groupe d’âge, niveau académique, groupe clinique particulier, etc.) ? (un instrument peut être valide pour une population mais pas nécessairement pour une autre)
    
     3. Est-ce qu’il mesure bien ce construit pour une application particulière (e.g., classifier dans des groupes diagnostiques, donner une valeur quantitative sur continuum, etc.) ? (les instruments peuvent être utilisés pour différentes raisons : ex. dépister pour classer en 2 groupes VS identifier les individus le long d'un continuum --> on ne va pas nécessairement utiliser le même instrument pour faire les deux car pour l'un il peut être valide mais pas pour l'autre utilisation)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quels sont les 3 points clés à propos de la validité des teste que soulignent les organisations professionnelles ?

A
  1. La validité concerne l’interprétation des scores procurés par un test pour un construit spécifique; ce n’est pas une caractéristique du test (ne s’applique pas un test en soi car l’instrument peut généré des scores avec une bonne validé pour une utilisation particulière, mais pas pour une autre)
     2. La validité est une question de degré ; ce n’est pas une question absolue, de « tout ou rien » (en fonction de l'application et la population)
    
     3. La validité d’un test repose sur de solides bases théoriques et empiriques (les deux contribuent à la validité des scores générés)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quelles sont les différentes sources de la validité ?

A
  • contenu
  • construit (factorielle, convergente, discriminante)
  • critère (concomitante, prédictive, incrémentielle)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Est-ce que la vraisemblance fait partie des sources de validité ?

A

Non

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Qu’est-ce que la vraisemblance ?

A

Aussi appelée validité d’apparence (« face validity »)

Le degré auquel une mesure semble adéquate et reliée à un construit spécifique selon le jugement de (a) les personnes qui sont évaluées avec le test (i.e., clients.es, profanes, non-experts.es qui sont évalués.es) et/ou (b) les personnes qui utilisent le test (i.e., intervenants.es, mais peut aussi être des représentants légaux reliés à la population ciblée, etc., par ex. parents, enseignants, etc.)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Une mesure détient une bonne vraisemblance lorsque quoi ?

A

lorsque les personnes évaluées ou celles qui l’utilisent jugent qu’elle « semble pertinente et adéquate » pour mesurer le construit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Si l’instrument ne paraît pas valide ou vraisemblable pour les personnes évaluées/utilisatrices dans les situations concrètes d’évaluation, est-ce que cela peut devenir une menace à la validité ?

A

Oui, en l’influençant.

ex. les personnes ne prennent pt pas le questionnaire au sérieux s’ils ne le jugent pas pertinent

	* e.g., mesurer le niveau d’agressivité d’un enfant en lui faisant faire un dessin ?
	* e.g., l’item « je sens parfois mon âme sortir de mon corps » serait-il perçu comme peu valide dans plusieurs contextes (e.g., sélection du personnel) ?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quels facteurs peuvent influencer la vraisemblance ?

A
  • Format de présentation de l’instrument (en ligne = plus sérieux VS papier)
  • Contexte d’évaluation (e.g., endroit physique de l’administration, les consignes, attitude et apparence physique de l’évaluateur.trice, etc.)
  • Capacités cognitives des répondants.es
  • Santé mentale et état psychologique des répondants.es
  • Personnalité des répondants.es
  • Motif de l’évaluation (désirabilité sociale [+ ou -])
    etc.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Qu’est-ce que la validité de contenu ?

A

Réfère au degré de représentativité des items (questions) utilisés pour mesurer un construit (à quel point les items (questions/symptômes/etc.) sont représentatives du concept que l’on souhaite mesurer)

  • La plupart du temps établie de façon déductive
    Les auteurs.trices du test demandent à un groupe d’experts.es indépendants.es de se prononcer sur la pertinence des items (avec qui je ne travaille pas, pour qu’ils se sentent libre de donner leur vrai opinion, sans être biaisés)
  • On demande est-ce que :
    1. Chaque item individuellement correspond bien au construit ?
    2. Tous les items d’une échelle considérés comme un groupe constituent un échantillon représentatif de tous les domaines (et sous-domaines) du construit d’intérêt ?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Q’est-ce qui est central dans la validité de contenu ?

A
  • La représentativité
    • Tous les domaines (et sous-domaines) du construit sont-ils représentés ? (sinon la validité de contenu diminue)
      § e.g., Échelle d’impulsivité: impulsivité cognitive, impulsivité émotionnelle, impulsivité comportementale, etc.
    • Éviter la sur- ou sous-représentation d’items des différents sous-domaines du construit (ex. 15 pour un sous-domaine et 5 pour un autre, à moins qu’un sous-domaine soit plus important que les autres pour représenter un construit)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Avant de construire une échelle, les auteurs.trices doivent toujours faire quoi ?

A

décrire en détails et de façon compréhensive les différents domaines et sous-domaines du construit d’intérêt

* Quels sont les domaines inclus selon la théorie/recherches?  
	- Quelle est l’importance relative de chacun?

* Y a-t-il des sous-domaines selon la théorie/recherches? 
	- Quelle est leur importance relative?

* Avec quels items (et de quel format) peut-on bien représenter ces domaines et/ou sous-domaines? (avec combien d'items? Quels sont les plus importants?)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

À partir de quoi les chercheurs.euses définissent un construit (et donc, son contenu) ?

A

1) Cadre théorique (un concept théorique, une théorie, un amalgame de théories…Ex. Bandura dit que l’auto efficacité c’est …)
2) Recherches empiriques (recension)
3) Connaissances et expériences professionnelles/pratiques

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Quels sont les deux types de validité de contenu?

A
  • Nominale : selon les auteurs.trices du test
  • Consensuelle : selon un groupe de spécialistes indépendants (mieux encore que la nominale)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

De quelle manière peut-on estimer le degré de validité de contenu empiriquement ?

A
  • Avec une échelle de mesure quantitative, on demande à des experts.es indépendants.es d’estimerA. à quel point (degré) chacun des items d’un test est pertinent et représentatif du construit d’intérêt
    B. à quel point (degré) l’ensemble des items constitue un bon échantillon représentatif du contenu du construit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Afin de quantifier le degré de validité de contenu qu’est-ce qu’on fait ?

A

on donne aux experts.es un choix de réponse avec une gradation à propos de chaque item afin de systématiser le tout

Pas du tout pertinent / représentatif = 0
Un peu pertinent / représentatif = 1
Assez pertinent / représentatif = 2
Très pertinent / représentatif = 3

  • Puisque nous avons des données numériques, on peut donc calculer un Indice de validité de contenu (IVC; Polit & Beck, 2006)
  • On calcule un indice pour chaque item (IVC-I) et pour l’échelle totale (IVC-É)
    • IVC-I = Nombre d’experts.es qui ont jugé l’item représentatif (choix 2 ou 3), divisé par le nombre total d’experts.es
    • IVC-É = Proportion d’items jugés représentatifs (choix 2 ou 3) – ou dit autrement, la moyenne des IVC-I – divisée par le nombre total d’experts.es
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Quelles sont les deux grandes menaces à la validité de contenu ?

A
  1. Inclusion de contenu conceptuellement non pertinent
    1. Sous-représentation conceptuelle de certains domaines du construit
22
Q

Qu’est-ce que la validité de construit ?

A

Réfère au degré de (a) reproductibilité de la structure interne théorique sous-jacente à l’instrument ainsi que les (b) relations du construit d’intérêt avec d’autres construits externes (relation entre les scores générés par mon instrument et des concepts indépendants)

23
Q

Quelles sont les deux grandes façons de vérifier la validité de construit ?

A
  1. Validité factorielle
  2. Validité convergente / discriminante

idéalement on fait les 2

MAIS Avant d’entamer ces évaluations, il faut toutefois bien connaitre la théorie sous-jacente au construit

24
Q

Qu’est-ce que le réseau nomologique ?

A
  • Le réseau nomologique est la théorie expliquant le construit par le biais de ses interrelations avec d’autres construits (Cronbach & Meehl, 1955) (ex. une variable prédit le concept/construit de mon instrument ou encore, mon construit/concept prédit quelque chose d’autre)
  • Nomologie est « l’étude des lois », donc bien plus qu’une liste de domaines ou sous-domaines
    RN devrait donc représenter la structure interne et les interrelations (ordonnées et prévisibles) entre les domaines (ou sous-domaines) importants du construit et des construits externes théoriquement importants
  • Le réseau nomologique concerne souvent relations concurrentes, mais peut inclure des facteurs étiologiques (i.e., les précurseurs, ou facteurs de risque du construit (si on mesure une psychopathologie)) et des conséquences développementales
    Le RN devrait toujours être dans le manuel du test, mais y est rarement
25
Q

Qu’est-ce que la validité factorielle ?

A
  • On veut vérifier si la structure factorielle théorique qui représente le construit est reproduite sur le plan empirique (i.e., avec des données)
  • L’objectif est de vérifier deux aspects inter-reliés de la structure factorielle théorique
    1. Les items sont-ils significativement (statistiquement) associés au facteur (construit) ?
    2. Dans le cas d’un instrument multidimensionnel,
    a) Les items sont-ils significativement associés au bon facteur et non-associés aux autres facteurs ?
    b) Dans le cas d’une structure hiérarchique, est-ce que les sous-domaines sont significativement associés au domaine général (e.g., traits spécifiques associés à trait général) ?
26
Q

Qu’est-ce qu’un facteur ?

A
  • On utilise généralement le terme « facteur » pour représenter une dimension latente (ou variable latente, trait latent : qqchose que l’on ne peut pas mesurer directement, donc on mesure des manifestations observables), d’où l’utilisation du terme validité factorielle
  • Facteur : une réduction parcimonieuse de plusieurs variables (items ou questions) expliquées par une variable latente
  • Dans les instruments multidimensionnels (ex. l’EDC car il comporte 3 échelles), les items se regroupent évidemment en plusieurs facteurs
27
Q

Qu’est-ce que l’analyse factorielle exploratoire ?

A

(ça se fait tout seul dans le logiciel –> permet de voir si les items sont associés aux bons facteurs)

  • On identifie des regroupements d’items inter-corrélés, signifiant que les individus tendent à y répondre de façon similaire
    ○ e.g., Si les répondants.es ont tendance à répondre oui à la Q#1 ont aussi tendance à répondre oui à Q#5 et à Q#8, ces items seront donc regroupés dans un même facteur
  • Le chercheur.euse n’impose aucune restriction à la matrice de corrélations (ou de covariances) entre les items
  • Critère classique : on devrait avoir des saturations factorielles de 0,40 ou plus pour les items associés à un facteur (corrélation entre un item et le score général de l’échelle)
28
Q

Qu’est-ce la validité convergente ?

A

Degré auquel les scores d’une échelle sont associés avec ceux d’une autre échelle existante qui mesure le même construit théorique

29
Q

Qu’est-ce que la validité discriminante ?

A

Degré auquel les scores d’une échelle ne sont pas associés avec une échelle qui ne mesure pas le même construit

30
Q

L’idéal pour tester rigoureusement la validité C/D est d’employer quelle méthode ?

A

la méthode de la matrice multitraits-multiméthodes

31
Q

Qu’est-ce que la validité de critère ?

A
  • Aussi appelée validité pragmatique
  • Réfère au degré auquel les scores à une échelle sont associés à l’adaptation (ou la performance) des individus
  • Les scores à l’échelle sont donc comparés à ceux d’un critère externe
  • Le critère devrait être une mesure objective et indépendante de l’instrument, mais reliée conceptuellement au construit d’intérêt (réseau nomologique)
32
Q

Quels sont les deux grand types de validité de critère ?

A

Concomitante et prédictive

33
Q

Quelles sont les deux façons d’estimer la validité de critère concomitante ?

A
  1. Corrélation avec un critère indépendant
    ○ Test d’intelligence avec réussite académique (notes)
    ○ Test d’empathie avec conduites délinquantes
  2. Méthode des groupes contrastés
    ○ On teste les différences de scores moyens entre des groupes
    ○ e.g., Pour EDC, on prend un échantillon d’enfants déjà identifiés avec des TC (par psychologues scolaires) et on les compare avec un groupe d’enfants sans TC afin de déterminer si les scores à l’EDC distinguent bien les groupes
34
Q

Qu’est-ce que la validité de critère prédictive ?

A
  • Le degré auquel une mesure est capable de prédire un critère externe prospectivement (plus tard dans le temps)
  • Besoin d’une étude longitudinale prospective
    • e.g., les scores à une échelle d’impulsivité à la fin de l’enfance peuvent-ils prédire l’abus de psychotropes lorsque les individus sont au début de l’adolescence, deux ans plus tard ?
    • e.g., les scores sur une échelle de qualité de l’attachement aux parents au préscolaire permettent-ils de prédire un diagnostic d’anxiété de séparation plus tard, à l’entrée à l’école ?
35
Q

Qu’est-ce que la validité incrémentielle ?

A
  • Forme de validité pas toujours présente dans les livres de psychométrie, mais dans les faits, est une forme spécifique de validité de critère
  • À quel point les scores à un test ont une « valeur ajoutée » pour prédire un critère externe, au-delà de la capacité d’autres facteurs (autres tests) prédictifs importants ?
  • Liée à l’idée de « contrôle statistique » en analyse de régression
    e.g., quel est l’effet d’un prédicteur important après que le SSÉ soit contrôlé ?
  • En contexte de classification par ex., les scores d’une échelle de dépistage qui procurent une meilleure sensibilité et spécificité que ceux d’une autre échelle similaire
    ○ Sur le plan clinique, ceci signifie qu’on prend possiblement de meilleures décisions avec la nouvelle échelle
  • Peut aussi s’appliquer à la révision d’un test
    Les scores de la nouvelle version (a) prédisent mieux que l’ancienne version un critère au-delà de facteurs de contrôle, ou encore (b) procurent une meilleure sensibilité et spécificité que l’ancienne version
36
Q

Qu’est-ce que la théorie de la décision ?

A
  • Il s’agit essentiellement de déterminer à quel point les scores d’un test peuvent classifier adéquatement les personnes dans des groupes
  • La théorie de la décision comprend une série de concepts visant l’analyse des effets quantitatifs des décisions prises avec des tests
  • Pertinent dans différents contextes de classification tels que pour le dépistage, le diagnostic, la sélection du personnel, la certification, la dérogation scolaire, etc.
  • Les concepts de la théorie de la décision sont donc intimement liés à la validité de critère
37
Q

Qu’est-ce que la sensibilité ?

A

Capacité d’une échelle de procurer un résultat positif pour les personnes présentant le statut (e.g., un trouble) qu’elle prétend identifier

  • Se rapporte donc à la capacité de détection
  • Dans le tableau 2 X 2, on voit qu’il s’agit simplement des vrais positifs divisés par tous ceux qui ont vraiment le statut (i.e., trouble)
    • e.g., Avec l’EDC : proportion d’enfants obtenant un score égal ou supérieur à un score critère donné (ex., T = 60) parmi tous les enfants qui présentent réellement un TC
38
Q

Qu’est-ce que la spécificité ?

A

Capacité d’une échelle de procurer un résultat négatif pour les personnes ne présentant pas le statut (ex., un trouble) qu’elle prétend identifier

  • Se rapporte donc à sa capacité de discrimination
  • Dans le tableau 2 X 2, on voit qu’il s’agit des vrais négatifs divisés par tous ceux qui n’ont réellement pas le statut (i.e., trouble)
    • e.g., avec l’EDC : proportion d’enfants obtenant un score inférieur à un score critère donné (ex., T = 59 et moins) parmi tous les enfants qui n’ont pas un TC
39
Q

Les indices de sensibilité et de spécificité sont des observations empiriques de quoi ?

A

de la performance rétrospective d’un test

40
Q

Comment sont calculés les indices de sensibilité et de spécificité ?

A

ils sont calculé à partir d’une classification de différents groupes diagnostiques (ou d’attributs autres)
○ On estime la proportion des individus dont le statut est connu en regard du trouble mesuré qui obtiennent un score au dessus ou au dessous d’un score critère

  • Ces indices sont déterminés par le score critère établi par les auteurs.trices du test
  • Si le score critère suggéré pour identifier le trouble est changé, les indices de sensibilité et de spécificité de l’échelle vont aussi changer
41
Q

Les indices de sensibilité et de spécificité renseignent sur quoi ?

A

sur la capacité de classification d’une échelle ou d’un test lorsque ce dernier est utilisé avec des personnes dont le statut est connu

42
Q

Dans la pratique clinique , les test sont utilisés avec que des personnes dont le statut est connu ?

A

non, dans la pratique clinique, les tests sont utilisés avec des personnes dont le statut n’est pas connu (ou pas confirmé), par exemple pour le dépistage

43
Q

Pourquoi faut-il calculer le pouvoir prédictif d’une échelle ?

A

Pour obtenir des indices probabilistes

Pour déterminer le niveau de confiance qui peut être accordé à un résultat positif (ou un résultat négatif) pour un individu classifié
○ Autrement dit, pour savoir la probabilité qu’un individu présente réellement le trouble, étant donné un résultat positif à un test

44
Q

Qu’est-ce le pouvoir prédictif positif ?

A

La probabilité qu’un individu avec un résultat positif sur une échelle ait réellement le statut prédit
○ i.e., proportion d’individus ayant un trouble qui obtiennent un résultat positif, parmi tout ceux qui ont obtenu un résultat supérieur au score critère

45
Q

Qu’est-ce que le pouvoir prédictif négatif ?

A

La probabilité qu’un individu avec un résultat négatif sur une échelle n’ait réellement pas le statut prédit
○ i.e., proportion d’individus n’ayant pas de trouble qui obtiennent un résultat négatif, parmi tout ceux qui ont obtenu un résultat inférieur au score critère

46
Q

Les PPN et les PPP sont quoi ? et dépendent de quoi ?

A
  • Les PPP et PPN sont des indices de performance extrinsèques d’un test et ils dépendent de la prévalence du trouble
  • Autrement dit, pour une sensibilité et spécificité données, les PPP et PPN vont varier selon la prévalence
47
Q

Quelle est la différence entre la sensibilité et spécificité et les PPP et PPN ?

A
  • Sensibilité et spécificité sont des paramètres d’un test – ils sont seulement influencés par le score critère choisi (la prévalence est fixe, puisqu’elle est connue)
  • PPP et le PPN sont quant à eux des paramètres d’un test et de la prévalence du trouble
48
Q

Quelle est la règle générale concernant l’ensemble des tests de dépistage ?

A

Lorsque la prévalence est faible, le PPN > PPP – et c’est l’inverse lorsque prévalence élevée

49
Q

Quels sont les deux problèmes potentiels avec les indices de sensibilité, spécificité et de pouvoir prédictif ?

A
  1. L’estimation de ces indices statistiques dépend de la validité et de la fidélité du critère utilisé (e.g., est-ce que les diagnostics du DSM sont suffisamment valides et fiables ?)
  2. L’estimation de la prévalence réelle dans différents contextes cliniques peut être difficile
    - Néanmoins, des estimés imprécis (sans être grossièrement incorrects) n’ont pas un impact important sur les estimés du pouvoir prédictif pour les échelles qui ont une sensibilité et spécificité élevées (e.g., Griner et al., 1981)
50
Q

Pourquoi la validité et la fidélité sont intereliées ?

A
  • La validité est un préalable à la fidélité
    • À quoi sert de ne pas faire d’erreur de mesure si on ne sait pas ce qu’on mesure vraiment ?
  • La fidélité est une condition nécessaire à la validité
    • Est-ce qu’on mesure vraiment ce qu’on prétend mesurer si on fait beaucoup d’erreurs de mesure ?
  • Les deux sont interreliées empiriquement: les indices de validité sont directement influencés par le degré de fidélité
    • Quantité d’erreur influence la taille des corrélations; le nombre d’items aussi (Prophétie de Spearman)
51
Q

En bref, il faut toujours se rappeler que les chercheurs.euses valident un instrument d’évaluation pour qui/quoi ? qu’est-ce que cela implique ?

A

pour une population particulière et/ou une utilisation particulière
○ Les scores d’un instrument peuvent être tout à fait valides et fiables pour une population et une utilisation particulière, mais pas du tout pour une autre population ou une autre utilisation

52
Q

Autant la fidélité que la validité est une question de quoi ?

A

de degré