Cours 5: Validité Flashcards
Si une mesure est fidèle, est-elle nécessairement valide?
Pas parce que mesure est très constante (fidélité élevée) qu’elle est nécessairement valide.
Explique très brièvement la validité de critère et la corrélation avec un critère.
Si notre test est valide, il doit être corrélé positivement avec quelque chose d’observable dans la vie de tous les jours ou avec un questionnaire qui a déjà été validé.
Explique très brièvement la corrélation multiple et son utilité.
Régression multiple => Y= a+b(x)+b2(x)+e (améliore notre prédiction de y)
On va très rarement prédire y avec un seul prédicteur, souvent un 2e, 3e, etc… Vaut la peine d’avoir plusieurs beta
Explique brièvement ce qu’est la validité convergente et divergente ainsi que la sensibilité et la spécificité.
Est-ce que notre test corrèle avec un test déjà valide (convergente)
Est-ce que notre test ne corrèle pas avec un construit qui n’est pas pertinent (divergente)
Test sensible = test qui va détecté les choses
Test spécifique = va détecté seulement quand c’est nécessaire.
But = test doit battre le pile ou face/le hasard.
Explique brièvement la validité de construit ainsi que la validité de conséquence.
Est-ce que notre test correspond bel et bien à notre construit de façon théorique? => Pour ce faire, analyse factorielle exploratoire (se fait par spss) ou confirmation (se fait par d’autres logiciels comme amos)
Validité de conséquence: Quel est l’avantage vs l’inconvénient d’utiliser un test en terme de prédiction de y (qu’est-ce que ca coute si on utilise le test vs si on ne l’utilise pas). Réfléchir aux conséquences que le test peut avoir sur les gens vs les infos qui seront apportées par le test.
Donne un exemple pratique lié à la validité des tests.
Admissions à l’Université de Drummondville
Sélections sur la base de la coteR (valider cote r pour voir si cote r plus élevée prédit davantage de réussite)
Même si un test est valide, il ne sera jamais parfaitement valide (corréler parfaitement avec le critère => en pratique n’arrive jamais).
Même si on est valide, va arriver parfois qu’une donnée sorte de la courbe normale
Donne la définition de la validité ainsi que les trois précisions supplémentaires.
Généralement:
Est-ce qu’un test mesure ce qu’il devrait mesurer ?
3 précisions supplémentaires
- Un score dans un but précis: Pas juste dire que c’est valide, c’est valide pour qqchose.
Ex: MMPI validé pour distinguer les prisonniers récidivistes vs non récidivistes (donc MMPI est valide, mais pas valide pour tout)
Est-ce que le score a une entrevue est valide pour prédire la performance au travail 1 ans plus tard? Quelle est la correlation entre les deux?
- Une question de degré et non pas de tout ou rien: Et surtout comparativement aux autres tests…
Si notre test prédit les tentatives de suicide à 0.7 alors que les autres le prédisent à 0.2/0.3 => c’est notre test qui prédit le mieux les tentatives de suicides. Mais possible que ce ne soit pas le cas pour une autre variable par exemple. Ex: notre test ne prédit pas automatiquement la durée d’hospitalisation (dès qu’on change de variable, on doit aller voir si notre test est valide pour ca)
Validité peut être faible, modérée ou élevée. Il s’agit de savoir si le test est suffisamment valide pour justifier son utilisation. - Validité vs exactitude des normes:
Pas parce que notre test est valide qu’il prédit l’exactitude des normes.
Ex: pensées délinquantes et le nombre de crimes (corrélé à 0.5) => Adolescent qui fait des petits vols, mais qu’on ne le détient pas => passe pour un ange à comparer de ceux détenus (groupe utilisé pour faire les normes), mais pas du tout un ange dans l’ensemble de la population
Ex: Questionnaire d’anxiété corrélé avec marqueurs physiologiques. Normes pour mesurer l’anxiété chez les étudiants universitaires (normes faites avec des gens super stressés). Même si mon questionnaire est valide, ne garantit pas que les normes soient les bonnes normes pour l’ensemble de la population. Normes pas valables pour l’ensemble de la population.
Possible que le test soit valide, mais que ses normes soient déficientes.
Explique la sous-représentation du construit vs la variance non pertinente.
Mesure valide: Superposition du test et du construit
Construit sous-representé:
Exemples: Définition de depression comme qqchose d’émotif, comportemental et cognitif. Si notre test n’a aucun item qui porte sur les comportements => construit est sous-représenté.
Degré auquel un test omet d’importants aspects du construit
Variance non pertinente:
Exemples: Règle générale: partir avec une bonne définition
Degré auquel les scores du test subissent l’influence d’éléments extérieurs au construit en question.
S’assurer que le test mesure le moins possible de la variance qui est non liée au construit et s’assurer que le construit est suffisamment bien représenté dans l’ensemble du test.
Idéalement, on voudrait représenter le construit au complet sans représenter de la variance qui est non pertinente
Ex: Item: je pleure souvent dans un questionnaire lié au deuil = peut-être que la personne pleure souvent en raison d’une dépression et pas nécessairement en raison du deuil. Modifié l’item par «je pleure souvent la perte d’un proche» serait mieux => moins de variance non pertinente.
Voir fig.5.1 p.6 du power point:
L’intersection du construit et du test représente la validité: le test mesure ce qu’il est censé mesurer. La partie du construit qui n’est pas couverte par le test est appelé sous-représentation du construit. En plus de ne pas couvrir complètement le construit à l’étude, le test peut mesurer d’autres caractéristiques que celles souhaitées. Cette “autre” mesure est appelée variance non reliée au construit.
Nomme les types de validité présentes dans l’ancien système.
NB: Encore utilisé
- Contenu
- Critère:
Concomitante (je corrèle mon test avec un critère au moment présent)
Concomitante => Ex: test d’agressivité, compter le nombre de coups de poings dans cours d’école. Questionnaire et mesure des coups de poings sont faites en même temps.
Prédictive
Prédictive => Ex: regarder qui se trouve en prison une fois majeur. On veut surtout savoir comment le client sera dans le futur. Ex: Comment un détenu sera-t-il 6 mois après sa libération?
Validité prédictive répond souvent à plus de questions cliniques. On veut plus souvent la validité prédictive, même si elle est plus difficile à établir en général. - Construit: Analyse factorielle
Nomme les types de validité présentes dans le nouveau système.
- Contenu
- Relations avec d’autres variables:
Convergente (correlation avec un test) et discriminante/divergente (absence de correlation avec un test qui est non lié)
Ex: Questionnaire qui mesure le deuil devrait être fortement corrélé avec le golden standard sur le deuil et faiblement corrélé avec un questionnaire sur la dépression. On peut ainsi dire qu’on mesure seulement le deuil et non la dépression.
Test-critère : Si on fait juste corréler deux tests entre eux, on est trop détaché de la vrai vie/d’une mesure directe du comportement. Donc c’est pourquoi on devrait toujours avoir un critère comportemental avec lequel corrélé. - Structure interne/analyse factorielle
- Conséquences (qu’est que le test apporte de plus par rapport à une information qui est déjà existante):
Validité incrémentale
=> Validité incrémentale (quel % de variance supplémentaire mon test ajoute). Si pas vraiment de variance supplémentaire = validité incrémentale pas démontrée et donc n’amène strictement rien. Si mon test n’apporte rien de plus, pas de justification suffisante pour faire ce test. Amène inconvénient pour participants au test (ex: déplacement), car finalement le test ne sert à rien.
Montrer que notre test amène une variance qui n’était pas déjà obtenable plus facilement.
Explique la validité d’apparence.
Validité qui est la moins scientifique.
Est-ce que le test “paraît” valide ?
=> Est-ce que le test à l’air de mesurer ce qu’il prétend mesurer?
Ex: Êtes-vous un menteur? => réponse difficile à croire
MMPI => Détourne le biais de désirabilité sociale. MMPI s’est dégagé de la validité d’apparence pour aller vers des items qui n’ont pas nécessairement de validité d’apparence.
Formuler différemment ce genre de question comme : «mon père est une personne mauvaise, vrai ou faux.
Contraste avec des études empiriques
Divergences d’opinion à propos de la validité d’apparence: Parfois utile ex: contexte d’emploi
=> Mais validité d’apparence pourrait maintenir l’intérêt d’une personne pour obtenir un emploi en particulier. Ex: Tâches qu’on fait faire en entrevue qui ressemble aux vraies tâches de l’emploi = plus motivant pour la personne. Maintient la motivation du répondant quand le test semble mesurer ce qu’il prétend mesurer. Sinon, possible que le participant décroche.
En présence de deux tests dont la validité déterminée empiriquement est égale, il est habituellement préférable d’utiliser celui qui affiche la meilleure validité d’apparence
Explique la validité de contenu.
Pour que le contenu d’un test soit valide, il doit bien correspondre au contenu du domaine étudié.
Le contenu du test doit couvrir un échantillon représentatif de tous les éléments possibles du domaine
Utilisation typique: Tests en éducation (tests de rendement scolaire) et tests en emploi (tests d’aptitudes professionnelles) => Analyse de poste
L’objectif est de déterminer le degré auquel le contenu du test correspond au contenu de la matière scolaire ou de l’emploi visé.
Un problème d’opérationnalisation : Souvent difficile de définir clairement le domaine des items. Les items d’une même catégorie peuvent varier grandement quant aux compétences requises
Distinction avec validité de construit:
Construit = Fait avec des définitions de nos variables. Pour la faire, on va tester la structure interne par l’analyse factorielle
Explique le principe de base de la validité de critère et les 2 catégories de prédiction.
Principe de base : Relation entre les résultats au test et un critère externe considéré comme un important indicateur du construit à l’étude
Ex: test d’agressivité devrait être corrélé positivement avec des comportements d’aggressivité. (ex: coups de poing dans la cour d’école). On devrait avoir des comportements plus agressifs dans la vraie vie si on répond fortement au test d’agressivité.
Critère externe pourrait aussi être peine de prison par exemple.
Généralement 2 catégories de prédiction
- Concomitante: En même temps => concordance entre les résultats à un test et la valeur actuelle d’autres variables
Ex: Déterminer la relation entre les résultats à un test de rendement standardisé et à un test conçu par l’enseignant, alors que ces deux tests sont administrés presque au même moment.
- Predictive: Plus tard => prédire la valeur que prendront certains critères à l’avenir
Ex: Un test d’admission au cégep administré aux élèves de la dernière année du secondaire peut servir à prédire leur moyenne générale à la fin de leur première année collégiale.
Au plan logistique, plus dure de faire de la validité prédictive, car on doit retrouver nos participants et ils ont le temps de changer entre l’administration du questionnaire et la survenue du critère.On va voir bcp plus de validité de critère concomitante.
Explique l’application de la validité de critère par l’utilisation d’un critère externe.
Critère externe:
Exemples - Table 5.7
Régression (prédiction)
- Distributions bivariées Fig. 5.3, 5.4 (p.14 et 15 du power point)
Fig. 5.3: Test en x qui prédit le critère.
En régression simple, notre beta standardisé aurait été de 0.606, car beta = même chose que coefficient de corrélation.
Fig. 5.4: La distance entre les points et la droite sont pas mal égaux à travers la droite (absence d’hétéroscédasticité, donc homoscédasticité, car l’erreur est constante à travers les différentes valeurs de x)
Si restriction de la variance, réduction du coefficient r.
Si résultat au test est de 0, valeur = 1.56 et on rajoute 0.64 à chaque fois qu’on monte de 1 point au test.
- Formules 5-1, 5-2, 5-3
Critère externe et réaliste:
Ex: peine de prison, tentative de suicide. Si on sélectionne des vendeurs => montant des ventes. Chez les étudiants universitaires => les notes. On peut prendre n’importe quel critère externe et réaliste. Critère qui est observable. Mesurer un critère en lien avec le type de test que l’on fait. Ex: test d’anxiété => critère pourrait être nombre d’attaques de paniques. Test sur abus de substances => critère pourrait être le nombre de consommations, etc…
Le critère externe est le sujet sur lequel on souhaite vraiment avoir de l’information.
Parfois on a des variables dichotomiques comme critère (ex: avoir le diagnostic oui ou non). Si le résultat de mon test est dépression ou absence, on pourrait faire un khi carré plutôt qu’une corrélation. Mais la majorité du temps, c’est des corrélations qu’on fait.
Explique l’application de la validité de critère par l’utilisation de groupes contrastés.
Groupes contrastés : Démontre que le test permet de différencier un groupe d’un autre. Généralement, plus la différenciation entre les groupes est élevée, meilleure est la validité du test.
Exemples: Création d’un test évaluant l’abus d’alcool
Étudiants à UdeSherbrooke vs Clients à un centre de désintoxication
En principe, les deux groupes ne devraient pas avoir le même résultat au test.
Figure 5.5: Parfois difficile d’obtenir un contraste significatif dépendamment des groupes utilisés
- Clients atteints d’un Trouble anxieux généralisé
- Étudiants en psycho à UdeS :)
Différences de moyennes entre groupe critère et groupe contraste.
Plus la distance entre les deux moyennes est grande, plus le test discrimine bien les deux groupes.
Comment le contraste est-il mesuré? => d de cohen
D de cohen = différence des moyennes divisé par l’écart-type. => mesure l’ampleur de la différence entre nos deux groupes en terme d’écart-type. Ex: j’ai un groupe qui obtient un score de 100 et un groupe qui obtient un score de 70 avec écart type de 15 => d de cohen est de 2
D de cohen de 0.8 = différence large entre nos deux groupes (l’équivalent de deux écarts-type)
Plus notre d de cohen diminue, moins notre contraste est important entre les deux groupes.
Quand le d de cohen est grand le test discrimine bien entre les deux groupes
Mais par exemple, petite partie de détenus qui seraient moins agressifs que des gens du groupe contraste (ex: étudiants en psycho) => c’est ce que représente le triangle/le chevauchement des deux courbes.
C’est normal qu’il y ait de la superposition entre les groupes. On ne cherche pas automatiquement que les deux courbes soient parfaitement distinctes et parfois normal que la distinction en terme de d de cohen ne soit pas si grande que ça.