Cours 6 Flashcards
Qu’est- ce que la validité?
On veut savoir si l’instrument de mesure, mesure vraiment ce qu’il prétend mesurer.
Vrai ou faux, le degré de validité détermine l’interprétation et les inférences que l’on peut faire à partir des scores d’une échelle
Vrai, on veut savoir si l’échantillon d’items (les questions) de l’échelle représente bien le construit qu’on veut mesurer.
La validité d’un test ou d’une mesure doit être évaluée à 3 aspects:
- Est-ce qu’il mesure bien le construit qu’il prétend mesurer?
- Est-ce qu’il mesure bien ce construit pour la population ciblée
- Est-ce qu’il mesure bien ce construit pour une application particulière?
3 points clés à propos de la validité des tests
1) La validité concerne l’interprétation des scores procurés par un test pour un construit spécifique, ce n’est pas une caractéristiques du test
2) La validité est une question de degré ce n’est pas une question absolue, de “ tout ou rien”
3) La validité d’un test repose sur de solides bases théoriques et empiriques
Quels sont les 3 types de validité (CCC)
- Contenu
- Construit
- Critère
Vraisemblance (validité d’apparence)
Le degré auquel une mesure semble adéquate et reliée à un construit spécifiques selon le jugement de…
a)
b)
a) les personnes qui sont évaluées avec le test
b) les personnes qui utilisent le test
Validité de contenu
Degré de représentativité des items (questions) utilisés pour mesurer un construit
*la plupart du temps établie de façon déductive
Validité de contenu, on demande… (2 choses)
Est-ce que…
- Chaque item individuellement correspond bien au construit
- Tous les items d’une échelle considérés comme un groupe constituent un échantillon représentatif de tous les domaines du construit d’intérêt
Vrai ou faux, la représentativité est centrale?
Vrai! tous les domaines du construit doivent être représentés
Les chercheurs définissent un construit à partir… (CRC)
1) Cadre théorique
2) Recherches empiriques (recension)
3) Connaissances et expériences professionnelles/pratiques
2 types de validité de contenu
Nominale: auteurs du test
Consensuelle: groupe spécialistes indépendant
Il y a une façon d’estimer le degré de validité de contenu empiriquement
Avec une échelle de mesure quantitative, on demande à des experts indépendants…
A. d’estimer à quel degré chacun des items d’un test est pertinent + représentatif
B. d’estimer à quel degré l’ensemble des items constitue un bon échantillon représentatif
Qu’est-ce qu’on fait afin de quantifier le degré de validité de contenu?
On donne aux experts un choix de réponse avec une gradation à propos de chaque item afin de systématiser le tout
puisque nous avons des données numériques, on peut donc calculer un indice de validité de contenu pour chaque items et pour l’échelle totale
2 grandes menaces à la validité de contenu
- Inclusion de contenu conceptuellement non pertinent
- Sous représentation conceptuelle de certains domaines du construit
La validité de construit réfère…
au degré a) et b)
a) reproductibilité de la structure interne
b) relations du construit d’intérêt avec d’autres construits externes
2 grandes façons de vérifier la validité de construit
1) Validité factorielle
2) Validité convergente/discriminante
Réseau nomologique
Nomologie = …
Théorie expliquant le construit par le biais de ses interrelations avec d’autres construits
Nomologie = étude des lois
Validité factorielle
On veut vérifier si la structure factorielle théorique qui représente le construit est reproduite sur le plan empirique
Facteur: une réduction parcimonieuse de plusieurs variables (items ou questions) expliquées par une variable latente
L’objectif est de vérifier 2 aspects inter-reliés de la structure factorielle théorique
- Les items sont-ils significativement associés au facteur
- Dans le cas d’un instrument multidimensionnel
Analyse factorielle exploratoire
On identifie des regroupements d’items inter-corrélés, signifiant que les individus tendent à y répondre de façon similaire
Critère classique: on devrait avoir des saturations factorielles de 0,40 ou plus pour les items associé à un facteur
Analyse factorielle confirmatoire
Le chercheur impose une structure stricte a priori à la matrice de corrélation (ou de covariances) et teste si elle correspond aux données
Validité convergente
Degré auquel les scores d’une échelle existante qui mesure le même construit théorique
Validité discriminante
Degré auquel les scores d’une échelle ne sont pas associés avec une échelle qui ne mesure pas le même construit
Validité de critère (pragmatique)
Réfère au degré auquel les scores à une échelle sont associés à l’adaptation (ou performance des individus)
Dans la validité de critère, les scores à l’échelle sont comparés à ceux d’un critère externe DONC…
Le critère devrait être une mesure objective et indépendante de l’instrument, mais reliée conceptuellement au construit d’intérêt
Validité de critère concomitante 2 façons de l’estimer
1) Corrélation avec un critère indépendant (ex: test d’intelligence avec réussite académique, notes)
2) Méthode des groupes contrastés (ex: on teste différences de scores moyens entre des groupes)
Validité de critère prédictive
Le degré auquel une mesure est capable de prédire un critère externe prospectivement plus tard dans le temps
Validité incrémentielle
Forme de validité pas toujours présente dans les livres de psychométrique, mais dans les faits, est une forme spécifique de validité de critère
À quel point les scores à un test ont une valeur ajoutée pour prédire un critère externe “ contrôle statistique” régression
Validité incrémentielle, exemple en contexte de classification…
Les scores d’une échelle de dépistage qui procurent une meilleure sensibilité et spécificité que ceux d’une autre échelle similaire (meilleures décision avec une nouvelle échelle)
Validité incrémentielle qui s’applique à la révision d’un test
Les scores de la nouvelle version
a) prédisent mieux que l’ancienne version un critère au-delà de facteurs de contrôle, ou encore
b) procure une meilleure sensibilité et spécificité que l’ancienne version
Vrai ou faux, il y a toujours de l’erreur dans n’importe quel instrument?
Vrai!!!
Théorie décision
Comprend une série de concepts visant l’analyse des effets quantitatifs des décisions prises avec des tests (pertinent contextes classification)
Il s’agit de déterminer à quel point les scores d’un test peuvent classifier adéquatement les personnes dans des groupes
Sensibilité (capacité de détection)
Capacité d’une échelle de procurer un résultat positif pour les personnes présentant le statut qu’elle prétend identifier (capacité de détection)
Spécificité (capacité de discrimination)
Capacité d’une échelle de procurer un résultat négatif pour les personnes ne représentant pas le statut qu’elle prétend identifier (capacité de discrimination)
Les indices de sensibilité et de spécificité sont des observations empiriques de la…
Performance rétrospective d’un test calculé à partir d’une classification de différents groupes diagnostiques
On estime la proportion des individus dont le statut est connu en regard du trouble mesuré qui obtiennent un score au dessus ou en dessous d’un score critère
Ces indices sont déterminés par le score critère
- Si le score critère suggéré pour identifier le trouble est changé, les indices de sensibilité et de spécificité de l’échelle vont aussi changer
- Ces indices renseignent sur la capacité de classification d’une échelle ou d’un test lorsque ce dernier est utilisé avec des personnes sont le statut est connu
Pouvoir prédictif
En clinique, la tâche de l’évaluateur est de déterminer le niveau de confiance qui peut être accordé à un résultat positif (ou un résultat négatif) pour un individu classifié
La probabilité qu’un individu présente réellement le trouble, étant donné un résultat positif à un test
Pouvoir prédictif positif (PPP)
La probabilité qu’un individu avec un résultat positif sur une échelle ait réellement le statut prédit
Pouvoir prédictif négatif (PPN)
La probabilité qu’un individu avec un résultat négatif sur une échelle n’ait réellement pas le statut prédit
Les PPP et PPN sont…
des indices de performance extrinsèques d’un test et ils dépendent de la prévalence d’un trouble / ils varient selon la prévalence, ils sont des paramètres d’un test et de la prévalence du trouble
Échelle Dépis-Dép
Avec une prévalence de 10%, Dépis-Dép classifie correctement 78 personnes, alors que 22 sont mal classifiés
24 personnes sont identifiées avec dépression mais seulement 6 étaient vraiment dépressives. Le PPP est donc 6/24 = 0,25
76 personnes sont identifiées sans dépression dont 72 étaient vraiment non dépressives. Le PPN est donc 72/76
*Clairement on peut avoir davantage confiance aux résultats négatifs qu’aux résultats positifs
Conclusion sur la sensibilité, la spécificité et PP
2 problèmes potentiels avec les indices de sensibilité, spécificité et de pouvoir prédictive
- L’estimation de ces indices statistiques dépend de la validité et de la fidélité du critère utilisé (ex: est-ce que les diagnostics du DSM sont suffisamment valides et fiables?)
- L’estimation de la prévalence réelle dans différents contextes cliniques peut être difficile
Validité et fidélité interreliées
- La validité est un préalable à la fidélité
- La fidélité est une condition nécessaire à la validité
- Les 2 sont interreliées empiriquement: les indices de validité sont directement influencés par le degré de fidélité
2 types de validité de critère
2 types: concomitante et prédictive