Cours 6: Suite validité Flashcards
Explique en quoi les conditions affectant r sont une considération particulière à la validité.
Conditions affectant r:
- Linéarité :Notre relation est supposée être linéaire, sinon ça ne fonctionne pas pour corrélation
(Si la relation entre le test et le critère est non linéaire, la corrélation de Pearson sous-estimera le véritable degré de cette relation)
- Homoscédascité ou non: Homoscédasticité = erreur de prédiction est constante à travers tous les points de la droite => inverse pour hétéroscédasticité
- Homogénéité du groupe: Homogénéité = restriction de la variance
(La différence dans l’hétérogénéité d’un groupe est un problème fréquemment rencontré: On peut mener une étude de validité sur un groupe très hétérogène, ce qui produit un coefficient de validité relativement élevé lorsqu’on veut appliquer le résultat à un groupe beaucoup plus homogène)
Explique en quoi la relation fidélité-validité est une considération particulière à la validité.
Relations fidélité validité: Très important
- Fidélité = est-ce que le score observé est très proche du vrai score.
Si la fidélité du test ou du critère est limitée, cela limitera la validité critériée du test.
Il est possible que la fidélité d’un test soit parfaite alors que sa validité est nulle, c’est-à-dire que le test mesure avec fidélité autre chose que ce qu’il est censé mesurer.
La validité d’un test est limitée par sa fidélité
Atténuation = limite imposée à la validité par une fidélité imparfaite.
À partir du coefficient de validité obtenu, il est possible de calculer le coefficient de validité corrigé (coefficient de validité estimé si la fidélité était parfaite).
Explique en quoi la validité du critère est une considération particulière à la validité.
Validité du critère - Jusqu’à quel point est-il bon ?
- Exemple How: I Think Questionnaire et critère juridique
- Autres influences
Est-ce que les vrais délinquants sont significativement différents à mon test de cognition que ceux qui sont sous la protection de la jeunesse (victime)?
Pour un même cas, avec les mêmes caractéristiques, les décisions juridiques peuvent varier considérablement (facteurs aléatoires qui peuvent avoir un impact majeur sur les décisions qui sont rendues). Jusqu’à quel point mon critère est fidèle et valide? Sentence d’un juge = pas nécessairement fidélité incroyable.
Prendre comme critère longévité de la sentence, même si critère pas nécessairement parfait.
Donc les critères ne sont pas toujours parfaits.
Explique la contamination du critère et pourquoi elle constitue une considération spéciale à la validité.
Contamination du critère:
- Fonctionnement
- Prévention
Contamination du critère = Situation dans laquelle le résultat au test influe sur la valeur du critère.
Il faut éviter ça dans la mesure du possible
Ex: score à un examen de psychométrie corrélée avec moyenne générale en fin de bac => forte corrélation positive obtenue. => Problème potentiel = ce même prof enseigne plusieurs cours au bac. Donc notre critère est affecté par le test qu’on essaye de validé.
Ex: Diagnostic de dépression donné par des cliniciens, mais les cliniciens se sont basés sur les résultats au test de dépression pour poser leur diagnostic, donc contamination du critère. Le score obtenu au questionnaire devrait être corrélé au diagnostic posé par le clinicien. Mais si clinicien se base sur le test pour poser son diagnostic => ce n’est plus un critère indépendant.
La corrélation entre le test et le critère s’en trouverait ainsi augmentée.
Explique la validité convergente et divergente.
Convergente = est-ce que notre test est corrélé avec un test qui est déjà le standard de référence (golden)
(Corrélation relativement élevée entre le test et un certain critère devant mesurer le même construit que celui du test)
Divergente = test pas corrélé avec un construit avec lequel il n’est pas censé être corrélé ou du moins faiblement (construits autres que celui qu’on souhaite mesurer)
Ex: Si on veut déterminer la validité du Test d’anxiété de Montréal, on peut démontrer qu’il existe une forte relation entre ce test et d’autres mesures de l’anxiété, mais pas avec celles de la dépression.
Explique la matrice multitraits-multiméthodes.
Matrice Multitrait-multiméthode: Plus théorique que réellement utilisé
Quand même fastidieux à faire donc rare qu’on fait ça dans la vie de tous les jours.
Ex: Je veux faire un inventaire de dépression. Je devrais le corrélé avec l’inventaire de dépression de beck (validité convergente) et faiblement corrélé avec l’inventaire d’anxiété de beck (validité divergente)
Multitraits = une mesure de dépression au moins et une mesure d’anxiété (possible d’avoir plus que deux traits)
Multiméthodes = inventaire de dépression de beck = test objectif, inventaire que je cré = questionnaire objectif et inventaire d’anxiété de beck = questionnaire objectif
On pourrait avoir aussi un inventaire de dépression projectif et un inventaire d’anxiété projectif.
Notre mesure de dépression va toujours être corrélée plus fortement avec les autres mesures de dépression tant objectives que projectives qu’avec les mesures d’anxiété tant objectives que projectives.
Donc but de l’analyse multitraits-multiméthodes = démontrer que les corrélations relatives à un trait, mais couvrant différentes méthodes, sont plus élevées que les corrélations relatives aux méthodes qui couvrent différents traits.
Matrice multitraits multiméthodes porte aussi sur la fidélité.
Explique la combinaison de l’information de différents tests (plusieurs coefficients r)
Formule de la régression multiple. On prédit avec plusieurs valeurs.
Notre mesure doit toujours aller chercher de la variance qui n’était pas déjà connu, sinon pose problème. Si on mesure la même variance, ça ne nous sert à rien de rajouter cette variable
Important de se demander si notre nouveau prédicteur explique significativement plus de nouvelle variance.
Corrélation multiple permet de déterminer la validité incrémentale
Validité incrémentale = Quantité de données nouvelles et uniques qu’ajoute un test à un corpus de données existant.
Qu’est-ce que j’ajoute de nouveau comme variance?
Qu’est-ce qui est le mieux entre la prédiction statistique et la prédiction clinique?
Prédiction Statistique vs. Prédiction Clinique:
- Résultat habituel = supériorité statistique
Voir Dawes (1994) pour une revue détaillée des études à ce sujet
Qu’est-ce qui prédit mieux le comportement futur? La prédiction statistique basée sur une équation de régression ou bien c’est le psychologue qui fait la synthèse de tout ça?
Prédiction statistique est généralement meilleure que prédiction clinique.
Prédiction clinique = peut être affectée par toutes sortes de facteurs.
Il n’y a personne dont l’esprit est organisé comme la droite de régression => ligne qui minimise le plus possible les erreurs. Souvent des erreurs qui proviennent de nos biais personnels. On prend souvent des décisions sur ce qui est devant nous immédiatement plutôt que sur un critère qui est objectif.
Prédiction actuarielle = meilleure que prédiction clinique, car ne tient pas compte des biais/des situations particulières. Moins d’exceptions en se basant sur une formule mathématique que sur le jugement de quelqu’un.
Prédiction clinique devrait continuer d’exister mais avec bcp de prudence, car si je contredis le test, plus de chance d’être en erreur.
Explique la théorie de la décision.
Quand on fait passer un test, c’est souvent pour prendre une décision (mon client est atteint de dépression ou non)
Termes:
- Faux positifs: Vous passez un test de dépistage du sida. Vous n’avez pas le sida mais le test affirme que oui.
(on sort positif au test, mais c’est faux.) - Faux négatifs: Vous passez un test de dépistage du sida. Vous avez le sida mais le test affirme que non.
(on sort positif au test, mais c’est faux.)
-Vrais positifs et vrais négatifs (“hits”) = on a le sida et le test dit que j’ai le sida/je n’ai pas le sida et le test dit que je n’ai pas le sida.
Dans le meilleur des mondes, on souhaiterait avoir seulement des vrais positifs et vrais négatifs. (corrélation paraite)
Un taux élevé de “hits” indique une bonne validité critériée pour le test
Modifier le point de coupure pour jouer sur la sensibilité vs spécificité
Un déplacement du point de coupure influe sur la proportion relative des faux positifs et des faux négatifs.
Meilleur des mondes (100% sensibilité et 100% spécificité) vs réalité
On doit faire un compromis entre le taux de faux positifs et le taux de faux négatifs. L’utilisateur doit décider du résultat souhaitable : un taux de faux positifs relativement élevé ou un taux de faux négatifs relativement élevé
Explique ce qu’est la sensibilité, la spécificité et la notion de point de coupure.
Sensibilité : Identifier correctement les membres du groupe critère
Ex: Tous les étudiants qui ont dit avoir bu au moins deux consommations dans la dernière semaine sont des alcooliques = sensibilité trop élevée et pas assez de spécificité. (bcp de gens qui ont bu de l’alcool de façon normale ont été classés comme alcooliques).
Spécificité: Degré auquel le test détermine ou non les membres du groupe contrasté
Ex: Pour que je te classe alcoolique, il faut que tu sois à 42 consommations la semaine dernière = trop spécifique et pas assez sensible (probablement des gens qui sont alcooliques, mais qui non pas été classés comme tel, car critère est beaucoup trop élevé/trop spécifique)
Dans le meilleur des mondes, on obtiendrait une sensibilité de 100% et une spécificité de 100%. Tous les alcooliques sont classés comme étant alcooliques et tous les non alcooliques sont classés comme étant non alcooliques.
Mais n’arrive pas, car quand on monte la sensibilité on perd en spécificité et inversement.
Point de coupure : On va jouer avec le point de coupure pour maximiser la sensibilité ou la spécificité.
Maximiser la sensibilité ou la spécificité (Garder en tête validité de conséquence aussi.)
Risque suicidaire = vaut mieux être plus sensible (Ex: Moins pire garder quelqu’un à l’hôpital pour rien que d’apprendre son décès par suicide.)
Poids du diagnostic = vaut mieux être plus spécifique (à mon avis) (On a bcp tendance à donner des diagnostics sans se poser la question de quel est l’impact de donner un diagnostic à un individu. Bonne chose de diagnostiquer, mais pas entretenir une culture du diagnostic non plus. Se demander si le diagnostic va bel et bien être un avantage ou bien un inconvénient?)
Explique la notion de taux de base et son lien avec les stats bayésiennes.
Probabilité de la présence d’un diagnostic en fonction du taux de base (fréquence d’un événement (ou d’une pathologie) dans la population va affecter la probabilité que cet événement soit présent dans notre bureau).
Ex: Dans le cas de la schizophrénie, le taux de base dans la population en général est d’environ 1%
(Le taux de base change en fonction de la population définie. Par exemple, le taux de base lié à un trouble psychologique donné peut être de 1% dans la population en générale, mais de 30% dans la population des personnes qui consultent volontairement en clinique)
Ex: 75% des étudiants en mathématiques sont timides et 25% des étudiants en gestion sont timide. Si je croise qqun à l’uni de timide, est ce que c’est plus probable qu’il soit en mathématiques ou en gestion? Plus probable qu’il soit en gestion, car bcp plus de gens qui étudient en gestion qu’en math.
Explique la courbe ROC
Voir démonstration spss de la courbe roc sur Teams.
Diagonale dans courbe roc = droite de pile ou face (50% d’un côté et 50% de l’autre). Si notre ligne n’est pas au dessus de cette droite = qqun qui donnerait un diagnostic à pile ou face serait meilleur que nous. Notre test serait vrm mauvais, car ça veut dire que notre test est pire que le pile ou face.