5- Validité Flashcards
Qu’évalue-t-on avec la validité d’un instrument?
on veut généralement savoir s’il mesure vraiment ce qu’il prétend ou devrait mesurer. On veut savoir si l’échantillon D’items de l’échelle représente bien le construit qu’on veut mesurer
Que détermine le degré de validité?
détermine l’interprétation et les inférences que l’on peut faire à partir des scores d’une échelle
(Plus le degré de validité est élevé, plus on peut faire des inférences solides. Plus il est faible, plus il faut être prudent)
Quelle est la question principale à se poser pour évaluer la validité?
« est-ce que ce test est une mesure valide de ce construit, pour cette population et pour cette application particulière
“
Quels sont les 3 aspects qui doivent être évalués pour évaluer la validité?***
1.Est-ce qu’il mesure bien le construit qu’il prétend mesurer ?
2.Est-ce qu’il mesure bien ce construit pour la population ciblée (e.g., groupe d’âge, niveau académique, groupe clinique particulier, etc.) ?
3.Est-ce qu’il mesure bien ce construit pour une application particulière (e.g., classifier dans des groupes diagnostiques, donner une valeur quantitative sur continuum, etc.) ?
Quels sont les 3 points clés à propos de la validité des tests soulignés par les organisations professionnelles?
- La validité concerne l’interprétation des scores procurés par un test pour un construit spécifique; ce n’est pas une caractéristique du test
- La validité est une question de degré
- La validité d’un test repose sur de solides bases théoriques et empiriques
Quelles sont les 3 sources de validités?
- Contenu
- Construit (Factorielle, convergente, discriminante)
- Critère (Concomitante, prédictive, incrémentielle)
À quoi fait référence la vraisemblance?
Le degré auquel une mesure semble adéquate et reliée à un construit spécifique selon le jugement de (a) les personnes qui sont évaluées avec le test (i.e., clients.es, profanes, non-experts.es qui sont évalués.es) et/ou (b) les personnes qui utilisent le test (i.e., intervenants.es, mais peut aussi être des représentants légaux reliés à la population ciblée, etc., par ex. parents, enseignants, etc.
Vrai ou faux. La vraisemblance est une source de validité.
faux. c’est une validité d’apparence.
Comment détermine-t-on qu’une mesure détient une bonne vraisemblance?
lorsque les personnes évaluées ou celles qui l’utilisent jugent qu’elle « semble pertinente et adéquate » pour mesurer le construit
Vrai ou faux. La vraisemblance est la même chose que la validité de contenu
Faux. Pas du tout la même chose
Quel est le lien entre la vraisemblance et la validité?
Si l’instrument ne paraît pas valide ou vraisemblable pour les personnes évaluées/utilisatrices dans les situations concrètes d’évaluation, cela peut devenir une menace à la validité
Qu’est-ce que la validité de contenu?
Réfère au degré de représentativité des items (questions) utilisés pour mesurer un construit
Comment est souvent établie la validité de contenu?
La plupart du temps, établie de façon déductive:
- Les auteurs.trices du test demandent à un groupe d’experts.es indépendants.es de se prononcer sur la pertinence des items
Quelles questions sont posées pour déterminer la validité de contenu?
- Chaque item individuellement correspond bien au construit ?
- Tous les items d’une échelle considérés comme un groupe constituent un échantillon représentatif de tous les domaines (et sous-domaines) du construit d’intérêt ?
Quel concept est central dans la validité de contenu?
La représentativité
Que veut-on dire par représentativité?
- Tous les domaines (et sous-domaines) du construit sont-ils représentés ?
- Éviter la sur- ou sous-représentation d’items des différents sous-domaines du construit
Comment les auteurs peuvent-ils construire une échelle ?
- Doivent décrire les domaines et sous-domaines du construit d’intérêt:
- Doivent se demander:
Quels sont les domaines inclus selon la théorie/recherches?
Quelle est l’importance relative de chacun?
Y a-t-il des sous-domaines selon la théorie/recherches?
Quelle est leur importance relative?
Avec quels items (et de quel format) peut-on bien représenter ces domaines et/ou sous-domaines?
À partir de quoi les chercheurs.euses définissent un construit?
- Cadre théorique ( Une théorie, un concept théorique, plusieurs théories ensemble. Ex: Bandura dit que l’auto-efficacité c’est… )
- Recherches empiriques (Rescension)
- Connaissances et expériences professionnelles/pratiques
Quels sont les 2 types de validité de contenu?
- Nominale : auteurs.trices du test
- Consensuelle** : groupe de spécialistes indépendants (meilleure option)
Comment peut-on estimer le degré de validité de contenu empiriquement?
Avec une échelle de mesure quantitative, on demande à des experts.es indépendants.es d’estimer :
A. à quel point (degré) chacun des items d’un test est pertinent et représentatif du construit d’intérêt
B. à quel point (degré) l’ensemble des items constitue un bon échantillon représentatif du contenu du construit
Choix de réponse avec une gradation
Quels sont les différents types d’indice de validité de contenu? Comment les calcule-t-on?
- IVC-I = Nombre d’experts.es qui ont jugé l’item représentatif (choix 2 ou 3), divisé par le nombre total d’experts.es (Par item)
- IVC-É = Proportion d’items jugés représentatifs (choix 2 ou 3) – ou dit autrement, la moyenne des IVC-I – divisée par le nombre total d’experts.es (Pour l’échelle totale)
Quelles sont les 2 grandes menaces à la validité de contenu?
- Inclusion de contenu conceptuellement non pertinent
- Sous-représentation conceptuelle de certains domaines du construit
À quoi réfère la validité de construit?
Réfère au degré de (a) reproductibilité de la structure interne théorique sous-jacente à l’instrument ainsi que les (b) relations du construit d’intérêt avec d’autres construits externes
Comment peut-on vérifier la validité de construit?
- Validité factorielle
- Validité convergente / discriminante
Qu’Est-ce qu’un réseau nomologique?
Le réseau nomologique est la théorie expliquant le construit par le biais de ses interrelations avec d’autres construits
Que devrait représenter le réseau nomologique?
devrait donc représenter la structure interne et les interrelations (ordonnées et prévisibles) entre les domaines (ou sous-domaines) importants du construit et des construits externes théoriquement importants
Que peut inclure le réseau nomologique?
Le réseau nomologique concerne souvent relations concurrentes, mais peut inclure des facteurs étiologiques (i.e., les précurseurs, ou facteurs de risque du construit (si on mesure une psychopathologie)) et des conséquences développementales
Que vérifie-t-on avec la validité factorielle?
- On veut vérifier si la structure factorielle théorique qui représente le construit est reproduite sur le plan empirique (i.e., avec des données)
Dans la validité factorielle, qu’utilise-t-on pour représenter une dimension latente?
un facteur
Qu’Est-ce qu’un facteur?
une réduction parcimonieuse de plusieurs variables (items ou questions) expliquées par une variable latente
Quels sont les 2 aspects à vérifier dans la structure factorielle théorique?
- Les items sont-ils significativement (statistiquement) associés au facteur (construit) ?
- Dans le cas d’un instrument multidimensionnel,
a) Les items sont-ils significativement associés au bon facteur et non-associés aux autres facteurs ?
b) Dans le cas d’une structure hiérarchique, est-ce que les sous-domaines sont significativement associés au domaine général (e.g., traits spécifiques associés à trait général) ?
- Dans le cas d’un instrument multidimensionnel,
En quoi consiste l’analyse factorielle exploratoire?
Permet de voir si les items sont associés au bon facteur; le logiciel le fait
On identifie des regroupements d’items inter-corrélés (les gens y répondent de la même façon), signifiant que les individus tendent à y répondre de façon similaire
Quel est le critère classique en analyse factorielle exploratoire?
on devrait avoir des saturations factorielles de 0,40 ou plus pour les items associés à un facteur
En quoi consiste l’analyse factorielle confirmatoire?
- Le chercheur.euse impose une structure stricte a priori à la matrice de corrélations (ou de covariances) et teste si elle correspond aux données
- on programme quels items sont associés à un facteur, tout en leur imposant une corrélation de 0 avec les autres facteurs
Quelle méthode d’analyse devrait-on utiliser à l’étape de la validation?
analyse factorielle confirmatoire
De quoi s’Agit-il? Degré auquel les scores d’une échelle sont associés avec ceux d’une autre échelle existante qui mesure le même construit théorique
Validité convergente
De quoi s’Agit-il? Degré auquel les scores d’une échelle ne sont pas associés avec une échelle qui ne mesure pas le même construit
Validité discriminante
Quelle méthode est idéale pour tester la validité discriminante et convergente?
La méthode de la matrice multitraits-multiméthodes
À quoi réfère la validité de critère? (Aussi appelé validité pragmatique)
Réfère au degré auquel les scores à une échelle sont associés à l’adaptation (ou la performance) des individus
Comment teste-t-on la validité de critère?
- Les scores à l’échelle sont donc comparés à ceux d’un critère externe
- Le critère devrait être une mesure objective et indépendante de l’instrument, mais reliée conceptuellement au construit d’intérêt (réseau nomologique)-
Quels sont les 2 grands types de validité de critère?
- Validité de critère concomitante
- Validité de critère prédictive
Quelles sont les 2 façons d’estimer la validité de critère concomitante?
- Corrélation avec un critère indépendant
- Méthode des groupes contrastés (On teste les différences de scores moyens entre des groupes)
De quoi les tests suivants sont-ils des exemples?
- Test d’intelligence avec réussite académique (notes)
- Test d’empathie avec conduites délinquantes
Corrélation avec un critère indépendant pour estimer la validité de critère concomitante
En quoi consiste la validité de critère prédictive?
Le degré auquel une mesure est capable de prédire un critère externe prospectivement, i.e. plus tard dans le temps
De quoi avons nous besoin pour estimer la validité de critère prédictive?
d’une étude longitudinale prospective
De quoi s’Agit-il? * À quel point les scores à un test ont une « valeur ajoutée » pour prédire un critère externe, au-delà de la capacité d’autres facteurs (autres tests) prédictifs importants ?
Validité incrémentielle
À quoi est lié la validité incrémentielle?
- Liée à l’idée de « contrôle statistique » en analyse de régression
e.g., quel est l’effet d’un prédicteur important après que le SSÉ soit contrôlé ?
À quoi peut-on appliquer la validité incrémentielle?
- En contexte de classification (Ex: les scores d’une échelle de dépistage qui procurent une meilleure sensibilité et spécificité que ceux d’une autre échelle similaire)
- à la révision d’un test: Les scores de la nouvelle version (a) prédisent mieux que l’ancienne version un critère au-delà de facteurs de contrôle, ou encore (b) procurent une meilleure sensibilité et spécificité que l’ancienne version
Que comprend la théorie de la décision et à quoi sert-elle?
La théorie de la décision comprend une série de concepts visant l’analyse des effets quantitatifs des décisions prises avec des tests
Dans quels contextes la théorie de la décision est-elle pertinente?
Pertinent dans différents contextes de classification tels que pour le dépistage, le diagnostic, la sélection du personnel, la certification, la dérogation scolaire, etc.
Concrètement, de qu’est-ce que la théorie de la décision?
Il s’agit essentiellement de déterminer à quel point les scores d’un test peuvent classifier adéquatement les personnes dans des groupes
À quoi réfère le concept de sensibilité?
Capacité d’une échelle de procurer un résultat positif pour les personnes présentant le statut (e.g., un trouble) qu’elle prétend identifier. Se rapporte donc à la capacité de détection
Qu’est-ce que la spécificité?
Capacité d’une échelle de procurer un résultat négatif pour les personnes ne présentant pas le statut (ex., un trouble) qu’elle prétend identifier. Se rapporte donc à la capacité de discrimination
Quel concept se rapport à la capacité de détection d’un test? et à la capacité de discrimination d’un test?
- Détection: sensibilité
- Discrimination: spécificité
En quoi consistent les indices de sensibilité et de spécificité?
des observations empiriques de la performance rétrospective d’un test calculés à partir d’une classification de différents groupes diagnostiques (ou d’attributs autres). On estime la proportion des individus dont le statut est connu en regard du trouble mesuré qui obtiennent un score au dessus ou au dessous d’un score critère
Sur quoi se basent les indices de sensibilité et de spécificité?
- Ces indices sont déterminés par le score critère établi par les auteurs.trices du test
- Si le score critère suggéré pour identifier le trouble est changé, les indices de sensibilité et de spécificité de l’échelle vont aussi changer (voir Tableau)
Quelle est la tâche importante en clinique à faire en regard du pouvoir prédictif des tests?
- En clinique, la tâche de l’évaluateur.trice est plutôt de déterminer le niveau de confiance qui peut être accordé à un résultat positif (ou un résultat négatif) pour un individu classifié
- Autrement dit, on veut savoir la probabilité qu’un individu présente réellement le trouble, étant donné un résultat positif à un test
Qu’est-ce que le pouvoir prédictif positif?
La probabilité qu’un individu avec un résultat positif sur une échelle ait réellement le statut prédit
Qu’est-ce que le pouvoir prédictif négatif?
La probabilité qu’un individu avec un résultat négatif sur une échelle n’ait réellement pas le statut prédit
De quoi dépendant les PPP et les PPN?
dépendent de la prévalence du trouble. Autrement dit, pour une sensibilité et spécificité données, les PPP et PPN vont varier selon la prévalence
Quelle est la règle générale pour l’ensemble des tests de dépistage en regard des PPP et des PPN?
Lorsque la prévalence est faible, le PPN > PPP – et c’est l’inverse lorsque prévalence élevée
Quels sont les 2 problèmes potentiels avec les indices de sensibilité, de spécificité et de pouvoir prédictif?
- L’estimation de ces indices statistiques dépend de la validité et de la fidélité du critère utilisé (e.g., est-ce que les diagnostics du DSM sont suffisamment valides et fiables ?)
- L’estimation de la prévalence réelle dans différents contextes cliniques peut être difficile. Néanmoins, des estimés imprécis (sans être grossièrement incorrects) n’ont pas un impact important sur les estimés du pouvoir prédictif pour les échelles qui ont une sensibilité et spécificité élevées (e.g., Griner et al., 1981)
Vrai ou faux. La fidélité est une condition nécessaire à la validité.
Vrai
Quel concept est un préalable à la fidélité?
la validité
Comment son reliés les indices de validité et de fidélité?
- Les deux sont interreliées empiriquement: les indices de validité sont directement influencés par le degré de fidélité
- Quantité d’erreur influence la taille des corrélations; le nombre d’items aussi