Examen intra Flashcards
Selon le Petit Robert, l’évaluation est “l’action d’évaluer, de déterminer la valeur ou l’importance (d’une chose)”.
Pourquoi l’évaluation est-elle lourde de conséquence en psychoéducation ?
En psychoéducation, ceci est lourd de conséquence puisque vous portez un jugement sur une personne, ses limites et ses forces, son potentiel adaptatif, son avenir, sa famille, etc.
L’évaluation est indissociable de l’intervention. Expliquez.
L’évaluation occupe (ou devrait occuper) une place centrale en sciences sociales, incluant dans la pratique psychoéducative.
En fait, c’est un problème éthique de ne pas faire une évaluation avant d’intervenir
En clinique, beaucoup de temps est alloué à l’évaluation d’une intervention. Vrai ou faux ?
Faux.
Des sondages auprès de psychologues révèlent qu’en réalité :
- peu de temps est dévoué à l’évaluation
- peu de cliniciens évaluent systématiquement les effets de leurs thérapies/interventions
Des études ont montré que même en psychologie, où la formation à l’évaluation est obligatoire, les psychologues se servent peu des données disponibles et basent leurs pratiques sur leur «sens clinique» de ce que le client a besoin ou de ses progrès …
Pourquoi dit-on que l’évaluation est négligée en psychoéducation au Québec ?
En psychoéducation au Québec, il y a encore trop peu d’évaluation et en plus, elle est trop souvent effectuée de façon un peu négligée (instruments non validés au Québec, pas de normes québécoises, non respect du protocole d’administration, etc.)
Pourquoi le rapport d’évaluation psychoéducative est-il l’exemple parfait de l’importance de l’évaluation ? (2)
- Il reste associé à vous pour la postérité !
Un rapport d’évaluation daté et signé – qu’il s’agisse d’une œuvre géniale ou d’un travail bâclé honteux – est un acte professionnel qui vous sera attribué pour toute votre carrière - Peut avoir des implications légales
Si vous faites partie d’un ordre professionnel, vous pourriez même être poursuivi pour le contenu d’un rapport d’évaluation … et ça arrive !
L’acte d’évaluer est au cœur même de la définition de la profession. Qu’est-ce que l’évaluation selon l’OPPQ ?
«L’évaluation consiste en la description, l’analyse et l’interprétation d’une situation ou d’un phénomène en vue de fournir des données utiles à la prise de décision dans la poursuite d’un objectif ou d’un but »
L’évaluation exige que le professionnel pose un JUGEMENT sur la situation d’une personne à partir des informations dont il dispose
Quelles sont les différentes étapes de l’évaluation selon l’OPPQ ? (3)
- une étape de collecte de données visant à décrire et à comprendre la situation problématique
- une étape d’analyse des données dans le but de dresser un bilan clinique
- une étape de communication qui inclut généralement la rédaction d’un rapport et/ou un exposé dans une équipe multidisciplinaire
Les professionnels de l’intervention psychosociale adoptent de plus en plus une pratique basée sur l’évidence empirique, ou basée sur des données probantes, ou fondée sur des preuves, etc.
Pour que la pratique soit prise au sérieux, il faut donc une approche basée sur l’évidence empirique. Quels sont les problèmes que cette approche tente de résoudre ? (3)
- Problèmes dans la sélection des méthodes d’évaluation
Ex. Mesures projectives pour déterminer la garde d’un enfant ? - Problèmes dans la valeur scientifique des instruments d’évaluation employés (i.e., propriétés psychométriques)
- Problèmes dans l’interprétation des données cliniques tirées d’un instrument
Quels sont les deux principes qui sous-tendent l’évaluation basée sur l’évidence empirique ?
(1) Les théories du développement normal et de psychopathologie développementale ainsi que les recherches scientifiques doivent guider la sélection des construits à être évalués ainsi que les méthodes d’évaluation à utiliser
(2) Des instruments avec de bonnes propriétés psychométriques démontrées doivent être utilisées
Quels sont les sept grands objectifs de l’évaluation ?
- Dépister : déterminer les populations plus à risque de présenter un trouble
- Établir un diagnostic
- Établir un pronostique
- Faire une conceptualisation de cas (en psychoéducation, «évaluation fonctionnelle»)
- Évaluation des effets d’une intervention
- Évaluation de la mise en œuvre d’une intervention
- Développement de programmes d’intervention
Comment la théorie influence-t-elle l’évaluation ? (2)
- La théorie guide l’intervention
- Propose les facteurs qui devraient être changés ou modifiés, les médiateurs de l’intervention, etc. - La théorie devrait aussi guider l’évaluation
Propose les concepts qui devraient être évalués
«Les observations impliquent toujours la théorie»
Par ex., Théorie à la base de la psychoéducation (i.e., Gendreau):
- Intervention en groupe (jeunes, intervenants, processus de groupe)
- Activités de réadaptation (e.g., entrainement aux habiletés sociales, régulation de la colère, etc.)
Quels sont les grandes catégories d’instruments d’évaluation utiles en psychoéducation ? Y a-t-il beaucoup d’instruments qui y sont associés ?
- Comportements, émotions et cognitions des individus en difficulté ou à risque : il en existe plusieurs, même probablement trop
- Processus de groupe : il en existe quelques uns, mais somme toute peu
- Nature et qualité de l’intervention : il en existe très peu. Peu d’instrument pour mesurer l’intervention psychoéducative.
Selon Gendreau (2001) et Renou (2005), l’évaluation est une opération professionnelle qui accompagne le processus d’intervention tout au long de sa séquence.
Pourquoi l’évaluation doit-elle nécessairement précéder une intervention ? (2)
Sinon :
1. Comment savoir sur quoi intervenir?
- Comment savoir si les choses ont réellement changées, donc si notre intervention est efficace?
Si elle a des effets iatrogènes?
Au Québec, les instruments d’évaluation qui étaient traditionnellement utilisés en psychoéducation étaient la consultation des rapports existants et des observations directes dans le milieu et les grilles d’observation «maison» (e.g., cahier de bord, etc.)
«Vécu partagé» et discussions de cas entre intervenants, informelles ou en équipe
Les choses n’ont pas beaucoup changé au Québec pendant ~30 ans, mais on constate une grande amélioration, surtout suite au PL 21. Quelles sont ces améliorations ? (4)
- des instruments ont été développés dans le cadre de recherches évaluatives
- des exigences éthiques/déontologiques plus strictes ont vues le jour suite à la mise en place de l’OCCOPPQ, maintenant l’OPPQ. Développements législatifs (e.g., PL 21)
- Reconnaissance accrue de l’importance d’évaluer la nature et l’efficacité de nos interventions
- Tout ça a mené à des efforts de traduction et d’adaptation d’instruments en français
La question de l’évaluation des jeunes en difficulté revient régulièrement à l’ordre du jour des réflexions des gestionnaires et des praticiens à l’occasion de comités consultatifs, de tables de concertation et de colloques professionnels
Les commissions gouvernementales rappellent constamment, depuis au moins 45 ans, la nécessité de faire de l’évaluation (différentes commissions d’enquêtes).
Quel est l’état de l’évaluation dans les Centres Jeunesse ?
Les deux lois relatives à la jeunesse en difficulté (LPJ, LSJPA) sont plutôt évasives concernant l’évaluation
Les Centres jeunesse au Québec ne proposent généralement pas aux intervenants des protocoles d‘évaluation standardisés à utiliser de façon systématique
Les intervenants disposent donc seulement de leur «protocole d’évaluation personnel», qu’ils appliquent plus ou moins systématiquement
Une des raisons est qu’on manque d’instruments d’évaluation en français développés et validés selon des critères scientifiques rigoureux
Les questionnements reliés à l’évaluation et à la prédiction des comportements sont-ils nouveaux dans l’histoire ?
Fonctionnaires de l’empire chinois (1er Empire Chin) évaluaient les individus pour sélectionner les dirigeants militaires et ceux qui travailleraient pour l’empereur
Philosophes de l’Antiquité et de la Renaissance tentaient de prédire le comportement à partir du «tempérament»
De façon plus contemporaine, l’évaluation dite «standardisée» a débutée à la fin du 19e et au début du 20e siècle par l’évaluation de l’intelligence (capacités cognitives)
- Travaux de Binet pour identifier les enfants «déficients mentaux», travaux de Galton et Cattell pour évaluer différents aspects de l’intelligence, etc.
Un peu plus tard, l’évaluation de la personnalité pour les recrues et les hauts gradés des forces armées et pour les organisations de travail
Avec la montée de l’approche scientifique, les citoyens et les ordres professionnels (et, en réaction, les politiciens) s’attendent à ce que les méthodes d’intervention utilisées avec les individus en difficulté aient une certaine rigueur scientifique.
À quoi s’attendent-ils ? (3)
- Leur efficacité démontrée empiriquement
- L’absence d’effet délétères (ou iatrogènes) doit aussi être démontrée («primum non nocere»)
- Pour qu’un phénomène ou un construit soit dit «scientifique», il doit pouvoir être mis à l’épreuve par la méthode scientifique, et donc, doit être mesurable, vérifiable et reproductible
Qu’est-ce qu’un construit ?
Les construits sont des entités dont on croit à l’existence dans la nature (i.e., on croit que ça existe vraiment), mais que généralement on ne peut pas mesurer directement.
Un construit est une «entité abstraite, hypothétique, qui est inférée à partir d’un ensemble de choses directement observées (e.g., pensées, émotions, comportements)» (Raykov & Marcoulides, 2011)
C’est pour cette raison qu’on parle aussi souvent de «construit latent» ou de «trait latent»
e.g., On croit à l’existence de la dépression, mais on ne peut pas mesurer «ça» directement (c’est latent), il faut poser des questions sur l’humeur, le sommeil, l’alimentation, les pensées suicidaires, etc. (observés)
Sur quoi sont basés les construits ?
Les construits, qu’ils soient dans les sciences physiques (présumées plus «dures») ou humaines et psychologiques (présumées plus «molles»), sont souvent basés sur une théorie de ce qu’on pense de l’univers dans lequel on vit. Les construits qui sont utilisés en sciences humaines sont souvent basés sur une théorie (ex., dépression majeure ou TDAH selon le DSM, psychopathie selon Hare, etc.)
e.g., en astrophysique, où les chercheurs font des prédictions largement plus précises qu’en psychologie ou même qu’en médecine, on étudie les supernovas, les trous noirs, etc.
Quels sont les éléments nécessaires pour qu’un construit soit considéré comme scientifique ? (2)
- pouvoir les mesurer adéquatement (validité) et de façon précise (fidélité)
- pouvoir les mettre à l’épreuve empiriquement de façon répétée – implique donc une grande rigueur
Selon l’OPPQ, qu’est-ce qui doit être évalué?
«L’évaluation réservée est différentielle et multifactorielle, c’est-à-dire qu’elle tient compte d’une variété de facteurs dont la mise en relation permettra d’arriver à cerner le problème de la personne.» (OPPQ, 2014)
Que doit-on évaluer en psychopathologie développementale ?
« les expert.e.s en psychopathologie développementale cherchent à faire uneÉVALUATION EXHAUSTIVE des processus biologiques, psychologiques, sociaux et culturels et tenter de COMPRENDRE COMMENT ces différents niveaux d’analyse influencent les différences individuelles, la continuité et la discontinuité des profils D’ADAPTATION ET D’INADAPTATION ainsi que les différentes TRAJECTOIRES par lesquelles les formes d’adaptation apparaissent»
Interactions entre les caractéristiques individuelles (p. ex. biologiques, psychologiques) et l’environnement (p. ex. ami.e.s, emploi)
“Un problème d’adaptation est une adaptation d’un individu face à un environnement inadéquat” Expliquez.
Des comportements inadaptés dans un milieu peuvent être parfaitement adaptés dans un autre.
Ex. les jeunes de Pinel ne savent pas des habiletés sociales de base car ils ont appris les habiletés sociales autres de leur milieu.
L’évaluation et l’intervention doivent cibler les caractéristiques ________ ET __________.
Personnelles
Environnementales
Autrement dit, l’évaluation doit se faire dans plusieurs contextes pour être sur que le comportement n’est pas du à l’environnement plutôt qu’uniquement à la personne.
Pourquoi est-il important d’évaluer les compétences, les forces et les facteurs de protection en psychopathologie développementale ?
Évaluer les compétences et les forces puisqu’elles sont souvent des leviers utiles dans un PI efficace
Plus difficile de changer un comportement «inadapté» ou un facteur de risque; plus facile de travailler avec les individus en misant entre autres sur leurs forces et leurs préférences
Un système de classification est nécessaire pour organiser les aspects centraux d’une discipline scientifique. En psychiatrie/psychologie la classification est la base pour organiser les connaissances scientifiques. Qu’est-ce qu’une classification ?
Placer des objets (ou des construits psychologiques) dans des catégories distinctes, ou sous-groupes, à partir de certaines règles
On peut classifier des items (approche dimensionnelle et modèle multivarié) ou des individus (approche catégorielle et modèle médical)
Quelle est la différence entre un corrélat, un facteur de risque statique et un facteur de risque causal ?
Corrélats : facteurs qui arrivent en général en même temps, mais dont la corrélation n’a pas été encore confirmée expérimentalement. Prédécesseur du facteur de risque.
Facteur de risque statique : permanent dans le temps. Ex. Abus à l’enfance, être un homme, etc.
Facteur de risque causal : qui est l’élément déclencheur. Peut être difficile à déterminer.
Dans l’approche dimensionnelle, on classifie des _______ pour former des _________ ou des ______________.
On cherche une __________ qui permet de classifier tous les items qui définissent le (ou les) construit d’intérêt dans des dimensions qu’on veut mutuellement exclusives (ou orthogonales) : est-ce que les items sont assez liés pour mesurer le même construit ?
Items (ou facteurs)
Dimensions
Traits latents
structure factorielle : on fait passer le questionnaire à beaucoup de gens et ont regarde si ils répondent de la même façon aux mêmes questions.
Quel est le coefficient limite pour mesurer si les items mesurent le même construit ?
Au dessus de 0,4.
Dans l’approche dimensionnelle, les traits sont _________. Expliquez.
Bipolaires : on identifie des différences entre les individus le long d’un continuum.
Il est assumé que tous les individus «possèdent»le trait, mais à divers degrés.
On identifie donc des différences quantitatives entre les personnes (aka, différences individuelles)entre un pôle positif et un pôle négatif
On doit choisir un critère pour déterminer si un niveau (score) est normal ou «anormal», à l’aide d’une norme.
Selon l’approche catégorielle, on classifie des individus pour former des _______, ou ____________ ou _________.
On ne veut pas des regroupements d’items, mais des regroupements de personnes
P. ex. les enfants qui manifestent un nombre déterminé de symptômes d’inattention et d’hyperactivité sont classifiés dans les types de TDAH (type mixte ou type inattention seulement), alors que les enfants qui n’atteignent pas le nombre de symptômes sont classifiés dans le type «sans problème»
Types
Profils latentes
Classes latentes
Quels sont les trois types de regroupements de personnes dans l’approche catégorielle ?
- Sur une base exclusivement théorique
P. ex., typologie Myers-Briggs, typologie de la violence conjugale de Johnson, théorie de la délinquance de Moffitt, typologie des habiletés parentales de Baumrind
2) À partir de recension des connaissances tirées de la littérature scientifique
P. ex., DSM-5, ICD-11
3) Sur une base empirique (typologies empiriques), basée sur la recherche.
On utilise des analyses statistiques : analyse de regroupement (“cluster analysis”) ou modélisation de distributions mixtes (“mixture modeling”).
Ex. Une typologie de l’adaptation comportementale de l’enfant basée sur l’évaluation des parents.
Dans l’approche catégorielle, on cherche une typologie (qu’on appelle parfois taxinomie) qui permet de classifier tous les individus de la population dans des _____________, mutuellement exclusives
On identifie donc des différences ________ entre les personnes
Certains types sont des individus bien adaptés (la majorité), d’autres sont des individus «inadaptés»
catégories discrètes
qualitatives
Le DSM-5 est un système de classification (ou nosologiques) des troubles mentaux (ou psychopathologies) qui est très utilisé, et utile pour la communication entre intervenants, entre les institutions, etc… mais attention à l’étiquetage!!
Quels sont les problèmes de validités des diagnostics du DSM ? (3)
1) La complexité de l’adaptation humaine fait qu’il est souvent irréaliste de dichotomiser (perd sévérité)
2) Tous les symptômes pertinents ne sont pas nécessairement présents dans la liste préétablie
3) Problèmes avec algorithmes de classification : comme les symptômes sont très différents d’un individu à l’autre ayant le même diagnostic, comment déterminer le cas le plus grave ou celui avec un pronostic négatif ?
Qu’est-ce qu’un modèle mixte ?
Un modèle qui inclus les approches dimensionnelle et catégorielle.
Selon l’OPPQ (2014), « l’évaluation réservée implique le__________ du professionnel, au même titre que le diagnostic du médecin, ainsi que la communication de ce jugement.
L’évaluation et ses conclusions ont ___________ sur le plan professionnel
Il en est tout autrement de la détection, du dépistage, de l’appréciation et de la contribution … qui ne conduisent pas à statuer sur l’existence de difficultés précises ni sur les répercussions à plus long terme de ces difficultés dans la vie de la personne
Jugement clinique
Statut d’autorité
Qu’est-ce que la détection ?
relever des indices de trouble non encore identifié ou de facteurs de risque dans le cadre d’interventions dont les buts sont divers»
Qu’est-ce que le dépistage ?
«départager les personnes qui sont probablement atteintes d’un trouble non diagnostiqué ou d’un facteur de risque d’un trouble, des personnes qui en sont probablement exemptes»
Qu’est-ce que l’appréciation ?
«prise en considération des indicateurs (symptômes, manifestations cliniques, difficultés ou autres) obtenus à l’aide d’observations cliniques, de tests ou d’instruments»
Qu’est-ce que la contribution ?
«réfère à l’aide apportée par différent.e.s intervenant.e.s à l’exécution de l’activité réservée au professionnel»
Comment compare-t-on l’évaluation et le dépistage ?
Dépistage veut prédire des problèmes pas encore présents ou pas encore cliniquement graves
Comment compare-t-on un trouble et le diagnostic ?
Trouble est la condition clinique d’un patient, le diagnostic est l’étiquette qui représente l’information à propos de cette condition
Comment compare-t-on un diagnostic et une hypothèse Clinique/Diagnostique ?
Diagnostic: Assignation formelle d’un individu dans une catégorie d’un système de classification (p. ex., DSM-5)
Hypothèse diagnostique: Hypothèse de travail clinique servant à faire une conceptualisation de cas et à guider l’intervention (peut être dérivée des mêmes critères)
Comment compare-t-on un pronostic et une hypothèse pronostique? Qu’est-ce qu’il faut connaitre pour statuer sur le pronostic ?
Pronostic: jugement porté sur l’évolution, la durée (ou la stabilité) et les conséquences futures d’un diagnostic, dans le cas où aucune intervention ne serait effectuée
À noter que pour établir un pronostic valide et fiable, il faut connaître :
- Continuité / stabilité du trouble
- Facteurs de risque, d’aggravation, de persistance et de récidive / rechute
- Facteurs de protection et de désistement
Quels sont les 4 grandes étapes du diagnostic différentiel ?
- Est-ce qu’on est vraiment en présence d’un problème, d’une psychopathologie, ou est-ce un problème contextuel ou réactionnel transitoire ?
- Considérer explicitement différentes hypothèses diagnostiques plausibles
- Décider quelle est l’hypothèse diagnostique principale à partir du cadre théorique choisi, des données cliniques recueillies et surtout, du niveau d’urgence
- Établir une hypothèse pronostique
C’est juste un cheminement mental. Il faut considérer plusieurs hypothèses avant de se prononcer
Qu’est-ce que la comorbidité ?
Terme médical qui signifie la présence de deux (ou plus) diagnostics chez un individu
Pour les tenants de l’approche dimensionnelle, on utilise plus souvent le terme co-occurrence
À noter qu’en évaluation clinique, on tente d’expliquer le pourquoi de la comorbidité autant que celui du diagnostic principal
Comment compare-t-on l’évaluation diagnostique et l’évaluation fonctionnelle ?
Évaluation diagnostique: l’objectif est explicitement de poser un diagnostic
Ne s’intéresse généralement pas aux causes et aux processus expliquant le pourquoi du problème
Les psychoéducateurs ne peuvent pas légalement poser de diagnostic, mais peuvent tout à fait collaborer à une évaluation diagnostique (p. ex. appréciation, contribution)
Évaluation fonctionnelle: L’objectif de l’évaluation est de collecter des données afin d’aider à comprendre les processus explicatifs (i.e., facteurs de risque et de protection, mécanismes de développement, trajectoire) et les fonctions d’un problème d’adaptation
En raison de son objectif, est aussi souvent appelée «analyse de résolution de problème»
Attention : faire la distinction avec «l’analyse fonctionnelle» dans le cadre d’une intervention cognitive-comportementale (cours approche C-C)
En psychoéducation, toujours garder en tête que l’objectif n’est pas «d’évaluer pour évaluer» ou pour poser un diagnostic, mais pour : (4)
- Cerner la problématique et les besoins de services de la personnes en difficulté
- Formuler un jugement clinique sur les capacités et déficits adaptatifs de la personne et de son milieu
- Élaborer, appliquer et faire le suivi d’un PI psychoéducatif
- Mettre en place des pratiques d’intervention efficaces et rigoureuses
Le modèle exhaustif d’évaluation (MCÉ) se base toujours sur le motif de référence comme point de départ.
C’est un modèle qui spécifie que conceptuellement, l’évaluation doit être : (3)
- Multidimensionnelle
Multiples dimensions de l’adaptation doivent être évaluées (exemple :
Biologie (p. ex., hormones, neurotransmetteurs, etc.)
Fonction exécutive (p. ex., attention) et réussite académique
Cognitions (p. ex., habiletés cognitives, distorsions cognitives, schémas, etc.)
Stratégies de coping, de gestion des émotions
Traits tempéramentaux ou traits de personnalité
Comportements adaptatifs (routines de base, tâches quotidiennes, etc.)
En somme, il faut une approche holistique de l’évaluation - Multi-contextuelle (ou Multiniveau)
Multiples contextes dans lesquels l’individu évolue doivent être évalués :
- Contextes proximaux
Structure familiale, pratiques parentales, relations avec les pairs, relations avec les enseignants, activités routinières, etc.
- Contextes distaux
Statut socioéconomique (SSÉ), communauté (ou quartier), culture (valeurs, croyances partagées), etc.
En somme, il faut une approche éco-systémique (ou écologique) de l’évaluation
- Dynamique (ou développementale)
Ce sont les processus de développement qui s’opérationnalisent par les interactions entre les dimensions et les contextes qui sont importantes
Ce n’est pas tant les niveaux sur les dimensions individuelles ou contextuelles qui sont importantes, mais plutôt les interactions entre tous ces éléments pour un individu particulier
Il y a plusieurs façons de conceptualiser ces interactions, ou «transactions»
Relations additives, interactives (modération) et indirectes (médiatisation) entre différents facteurs (voir figure)
L’aspect développemental est fondamental, donc en somme, il faut une approche transactionnelle de l’évaluation
Quelle est la différence entre la mutlifinalité et l’équifinalité ?
Un même facteur de risque peut mener à des profils d’inadaptation différents (multifinalité), alors que des facteurs de risque différents peuvent mener à un même profil d’inadaptation (équifinalité)
Concepts importants puisqu’ils influencent les hypothèses clinique et pronostique et, ultimement, l’intervention privilégiée
Qu’est-ce qu’un facteur de protection ?
Trajectoires développementales peuvent changer en raison de facteurs de protection
Facteurs qui réduisent les risques de développer un problème, malgré la présence de facteurs de risque (sinon on dit facteurs de promotion ou compensatoires)
Selon le MCÉ, l’évaluation doit être méthodologiquement : (2)
- Multi-informateurs
Tous les informateurs procurent une part d’information valide, mais tous sont aussi en partie influencés par des biais
Individu en difficulté, parents, enseignant, intervenant, conjoint(e), ami(e), etc. - Multi-méthodes
Échelles d’évaluation ou questionnaires, entrevue structurées ou semi-structurées, observation systématique, tâches expérimentales, etc.
Quels sont les différents types d’instruments de mesure ? (4)
- Échelles d’évaluation et questionnaires
«Rating scale» versus «checklist»
Outils les plus utilisés: faciles et rapides à employer
On peut recourir à différents informateurs
Offrent la possibilité de mesurer systématiquement le fonctionnement dans différents contextes
- Problèmes avec les échelles d’évaluation
Intentions et motivations, compréhension, style de réponse, indulgence ou sévérité, etc. - Entrevues
Structurées et semi-structurées
Structurées généralement associées à des systèmes de classification (e.g., DSM-V)
Demande un entraînement avancé, mais souvent nécessaires en clinique (semi-structurée) - Observation systématique
en milieu d’intervention ou en milieu naturel - Méthodes projectives
Postulat: réponse à des stimuli ambigus peut révéler des choses …
Cotation et interprétation hautement subjective
Qu’est-ce qu’une théorie implicite ?
Un ensemble plus ou moins cohérent de croyances a priori à propos des caractéristiques ou propriétés d’un objet, incluant les humains (Plaks, 2016)
S’appliquent à la personnalité, aux problèmes d’adaptation, aux relations et rôles sociaux, etc.
Évidemment, nos croyances a priori peuvent être justes (valides) ou erronées (biais)
Les théories implicites s’appliquent à tou.te.s et aussi aux intervenant.e.s!
Il est normal de catégoriser pour se simplifier la vie (ex. Reconnaitre qu’une table est une table meme si elle est différente)
Les clinicien.ne.s utilisent toujours une théorie implicite de la psychopathologie pour les aider à classifier (diagnostiquer) une personne et, ultimement, choisir une intervention particulière
Des études ont montré que les «symptômes centraux» de leur théorie ont subjectivement beaucoup de poids :
Plusieurs semaines après avoir rencontré une personne en entrevue, ils se rappellent davantage de ces symptômes et y donnent plus de poids dans leur diagnostic
Le diagnostic (et l’évaluation en général) est un acte de catégorisation, qui lui en est toujours influencé par la «théorisation» de l’évaluateur
Il faut être très prudent et éviter que nos évaluations ne soient que des ____________ de ce qu’on croit implicitement
Même avec des instruments dits «objectifs» et «athéoriques», notre théorie implicite va influencer l’interprétation des scores, le poids qu’on donne à certaines informations dans l’interprétation, ce qui, en retour, peut influencer nos décisions cliniques (i.e., le genre de P.I. qu’on privilégie, la façon de mesurer l’atteinte d’objectifs, etc.)
Dans un contexte moins structuré comme en entrevue, cette influence peut être encore bien plus grande …
tentatives de confirmation
Très rare que les choses sont totalement objectives. Attention quand on creuse des informations qui ne font que confirmer ce que l’on pense.
Le besoin de quantifier, de mesurer ce qu’il y autour de nous est fondamental – nous aide à comprendre et à agir sur notre monde
Comment on mesure et avec quelle précision on peut le faire obsède les scientifiques de toutes les disciplines et depuis longtemps
Pourquoi est-ce aussi important ?
Il faut avoir de bons outils pour pouvoir reproduire les résultats.
Importance de la standardisation de la mesure (i.e., tout le monde le fait de la même façon)
Quelles sont les sept unités fondamentales de mesure ?
- Temps
- Probablement la première chose qui a été mesurée (e,g., avec le soleil, les étoiles)
- Nombre 12 encore beaucoup utilisé parce que très divisible (a commencé au Moyen-Orient)
- Aujourd’hui, nous avons une horloge atomique assez précise … elle perd une seconde en 130 millions d’années - Distance
A longtemps été basée sur des parties du corps des dirigeants, des rois et reines (e.g., pieds)
Aujourd’hui on a le mètre, né de l’Académie française des sciences après la révolution - Masse
Système métrique
L’étalon international du kilogramme est gardé sous haute sécurité à Paris …
mais problème : il perd de la masse - Mole (ou quantité)
On a le litre, ml, etc. - Lumière
plusieurs façons: Longueur d’ondes (nanomètres), fréquence (Hertz), énergie (électron/volts) - Chaleur
Thermomètre (en Celsius ou Fahrenheit) - Électricité
Volt, ampère, Watts, KW, MW, etc.
Qu’est-ce que la mesure?
«La mesure, prise au sens large, consiste à associer des nombres à des objets ou à des événements selon certaines règles»
«La mesure en psychologie est une opération qui consiste à associer des nombres à des personnes de telle sorte que certains des attributs de ces personnes sont représentés fidèlement par certaines propriétés des nombres»
Quelles sont les propriétés d’une échelle de mesure nominale ?
On donne un numéro à une entité. Le numéro ne veut rien dire. ex. numéro de joueurs de hockey
Pas de magnitude (l’un n’est pas meilleur que l’autre), pas d’intervalles égaux, pas de 0 absolu.
Quelles sont les propriétés d’une échelle de mesure ordinale ?
Les numéros sont donnés dans un ordre, mais l’un n’est pas meilleur que l’autre. Ce sera la position, (ex 1e, 2e, 3e) qui est importante, même si on ne connait la distance exactes entre ces positions.
Magnitude mais pas d’intervalles égaux ni de 0 absolu.
Quelles sont les propriétés d’une échelle de mesure intervalle ?
Interval (aussi appelé relative): c’est une mesure mais le 0 n’est pas absolue (il y a toujours une certaine quantité de ce que l’on mesure). Gradation, mais l’écart entre les réponse / point de l’échelle est toujours le même (ex.: degré de colère entre 1 et 5). Opérations: addition et soustraction. Ne peut pas avoir de 0
Magnitude et intervalles égaux, mais pas de 0 absolu.
Quelles sont les propriétés d’une échelle de mesure ratio ?
Ratio (aussi appelé échelle absolue) : présence de 0 absolue. L’écart entre les réponse / point de l’échelle est toujours le même. Un plus grand nombre d’opérations est possible (ex.: 5 secondes est deux fois plus rapide que 10 secondes). L’absence totale (zéro) est concevable. Opérations: addition, soustraction, multiplication et division.
Magnitude, intervalles égaux et zéro absolu.
Pour des concepts psychosociaux, on utilise souvent le terme «instrument de mesure» plutôt que «test». Pourquoi ?
Parce qu’on évalue pas les gens pour savoir s’ils ont la bonne réponse ou pas (p. ex., test de mathématiques, test de QI)
Qu’est-ce qu’un test ? (4)
Selon Anastasi et Urbina (1997), un test est «une (1) mesure (2) standardisée et (3) objective d’un (4) échantillon de comportements»
Qu’est-ce qu’une mesure ?
Associer des nombres à des caractéristiques d’un individu (peut aussi être des caractéristiques de l’environnement)
Qu’est-ce que veut dire standardisé ?
Uniformité de la procédure d’administration de l’instrument
Principe du contrôle rigoureux de la démarche de toute observation scientifique
Administration standard d’un test : Questions (items), consignes et conditions d’administration doivent être les mêmes pour tous les répondant.e.s
ex. l’examinateur ne peut rephraser les questions, il doit uniquement la répéter pour éviter d’ajouter de la subjectivité au test.
Qu’est-ce que l’objectivité ?
Signifie que (a) les items doivent être compris de façon non-ambiguë et de la même façon par tous les évalué.e.s et (b) les résultats obtenus (scores) devraient systématiquement procurer de l’information sur le construit ciblé, indépendamment (ou en dépit) du jugement subjectif d’un évaluateur.rice
On veut un estimé du construit qu’on mesure, pas un estimé contaminé par d’autres facteurs confondants
P. ex., Un questionnaire avec des items au niveau de langage trop sophistiqué, pas compris par plusieurs évalué.e.s
Ex. attention à utiliser des items très précis/spécifique ou qui ne s’appliquent pas à la personne, comme «bouger vous bcp sur votre chaise au théâtre» à des itinérants (facteur confondant : ).
Qu’est-ce qu’un échantillon de comportements ?
Signifie qu’on ne couvre pas toutes les manifestations possibles d’un construit, on sélectionne soigneusement un échantillon restreint, mais représentatif du concept
Ce n’est pas les items spécifiques qui sont d’intérêt, mais la qualité de l’inférence qu’on peut faire avec ceux qui sont utilisés
Ce qui est important, c’est de bien sélectionner l’échantillon de comportements, pas quels items spécifiques sont utilisés
Urbina (2014) souligne qu’il est important de ne jamais oublier que les instruments d’évaluation sont des outils
Que veut-elle dire ?
Ceci veut dire qu’ils sont toujours un moyen pour atteindre une fin, mais jamais une fin en soit
Lorsque bien validés et utilisés correctement, ils peuvent être des aides très utiles pour les professionnel.le.s
Par contre, lorsqu’ils sont peu valides ou fiables et/ou mal utilisés, ils peuvent mener à des conséquences négatives
Analogie du marteau: outil très simple, peut être tellement utile qu’on peut se construire une maison avec … mais on peut aussi faire du mal avec (coup sur le doigt … ou agresser quelqu’un.e)
En évaluation psychoéducative, cela peut être un «étiquetage» dommageable pour un.e client.e !
Une des particularités de la mesure en sciences sociales est que les construits théoriques ne sont généralement pas observables directement. Comment appelle-t-on ces traits ?
Des traits latents
Lorsqu’on a recours aux traits latents, on accepte de facto deux postulats :
Postulat théorique : On postule que le construit existe (sinon quel serait l’intérêt ?)
Postulat de mesure : On postule que même si on ne peut le mesurer directement, on peut le faire indirectement avec un échantillon représentatif d’indicateurs observables, valides et fiables
Qu’est-ce que le mode et la médiane ? L’étendue ? La variance ? L’écart-type ?
Mode : score le plus fréquent obtenu
Médiane : score qui coupe la distribution en deux.
Étendue : scores min à max
Variance : coefficient de dispersion
Écart-type (ÉT) : racine carrée de la variance
Quelles sont les % de la distribution sous la courbe en fonction de un , deux et trois écart-types ?
1 ÉT = 68,2 % des individus ont un score à l’intérieur d’un ÉT de la moyenne
2 ÉT = 95,4 % des individus
3 ÉT = 99,8 % des individus
Donnons-nous le score brute aux sujets que nous évaluons ? Quels scores donnons-nous ?
Non, car les scores brutes sont difficiles à interpréter.
Ex. un score de 3/6 n’est pas nécéssairement “dans la moyene”.
Pour déterminer si un individu présente un score «anormal» ou «problématique», on a besoin de comparer le score obtenu avec un critère de comparaison, avec une norme objective et systématique : les scores standardisés.
En général, il y a deux grands types de normes utilisés pour qualifier et interpréter les scores de la majorité des instruments psychométriques :
- Qualification basée sur un critère de référence : score critère établi a priori par les auteur.rice.s d’un instrument qui permet de conclure qu’une «performance» ou un «statut» a été atteint
Probablement l’exemple le plus simple sont les seuils du DSM : i.e., à partir de 3 symptômes et plus, il y a présence d’un TC chez un enfant
- Qualification basée sur une norme de référence : recueillir les réponses d’un échantillon de personnes représentatives de la population ciblée et d’utiliser la moyenne de ces personnes comme critère
Lorsqu’on évalue une nouvelle personne avec l’instrument, on peut qualifier son score par rapport à la moyenne normative (ou dit autrement, à un «individu moyen»)
La majorité des instruments d’évaluation utilisés en psychologie, psychoéducation, utilise cette méthode
C’est pour cela qu’on parle «d’évaluation normative»
Pour utiliser une norme, il faut calculer ses scores standardisés (ou score standards) basées sur un échantillon normatif. Quelles sont les trois caractéristiques d’un bon échantillon normatif ?
- Représentatif de la population ciblée
Idéalement échantillon national stratifié - Grande taille
- Récent
Quels sont les problèmes avec les normes générales ?
Si pas de normes selon le sexe : les différences liées au sexe sont en quelque sorte perdues ou «noyées»
P. ex., Échelle d’humeur dépressive
Général, M = 50, Garçons, M = 40, Filles, M = 60
Donc, avec des normes générales, il y aurait autant de gars que de filles avec scores très élevés, alors qu’en réalité il y a plus de filles
Surtout, sur le plan clinique, un score de 50 est problématique pour un garçon, mais pas pour une fille
Comment fait-on pour calculer un score standardisé ?
Scores bruts qui ont été transformés pour avoir une distribution avec une M et un ÉT prédéterminés (p. ex., M = 50; ÉT = 10) et avoir des intervalles égaux le long du continuum
Comment fait-on :
- Recueillir des données auprès d’un échantillon représentatif
- Calculer les scores bruts, utiliser la M et ÉT de ces scores bruts pour appliquer une transformation mathématique afin d’en arriver à une distribution connue, p. ex., la distribution Z
Zi = (xi – Mbruts) / ÉTbruts
En raison de leurs intervalles égaux (i.e., échelles à intervalles), les scores standardisés permettent d’indiquer ____________________ (i.e., M de l’échantillon normatif)
P. ex., en terme de scores-T, la distance entre des scores de 20 et 30 est la même que la distance entre des scores de 55 et 65
de combien, en valeur d’écart-type, un score observé se situe au-dessus ou au-dessous de la moyenne normative
Quelles sont les deux grandes fonctions ou utilités des scores standardisés ?
- Déterminer la position relative d’un individu par rapport à la population d’intérêt (i.e., déterminer si un score est significativement différent de la moyenne normative)
- Faire des comparaisons entre différentes échelles qui n’ont pas la même métrie brute
- Comparer des scores sur une échelle similaire (agressivité) provenant de différents instruments
- Comparer des scores sur différentes échelles provenant d’un même instrument
Quel est un grand problème avec les scores standardisés ?
Les scores standardisés sont obtenus avec une transformation linéaire des scores bruts
Donc, la forme de la distribution originale n’est pas changée après la transformation
Malheureusement, les auteur.rice.s utilisent souvent une telle transformation sur une distribution non-normale (p. ex., échelle d’attitudes antisociales), ce qui peut compliquer l’interprétation (p. ex., comparaison de deux échelles avec des distributions différentes; normale vs non-normale)
Il est possible d’utiliser une transformation non-linéaire pour ramener les scores vers une distribution qui se rapproche plus d’une distribution normale pour obtenir des scores normalisés
Quels sont la moyenne et écart-type d’un score Z ? D’un score-T ? Du QI ?
Scores-Z : (xi – M) / ÉT
M = 0; ÉT = 1
varient surtout de -3 à 3
Scores-T : zi (10) + 50
M = 50; ÉT = 10
varient surtout de 10 à 90
Les score T sont plus faciles à interpréter car ils ne sont pas négatifs et moins précis (64 au lieu de 0,24)
Quotient intellectuel (QI) M = 100; ÉT = 15
Quels sont les critères «usuels» basés sur les principes psychométriques généraux (i.e., différences en terme d’écart-type considérant une distribution normale de scores) du score T ?
Il faut connaitre ces critères parce que les auteur.rice.s de certains instruments ne procurent pas de scores critères prédéterminés (sauf si les auteurs donnent leurs propres critères, ex. EDC)
Pour les scores-T (dans le cas d’un construit négatif ou socialement non désiré; un «problème»):
Scores entre 41 et 59 : Dans la moyenne normative
«Adaptation moyenne», «Adaptation normative», «Pas de problème», «Pas à risque»
Scores de 60 à 69 : Significativement au-dessus de la moyenne normative
«Scores problématiques», «À risque»
Scores de 70 et plus : Très significativement au-dessus de la moyenne normative
«Scores très problématiques», «Très à risque»
Scores de 31 à 40 : Significativement au-dessous de la moyenne
«Bonne adaptation»
Scores de 30 et moins : Très significativement au-dessous de la moyenne
«Très bonne adaptation»
Centiles sont des scores qui permettent de déterminer la position relative d’un individu par rapport à un échantillon de normalisation en terme de pourcentage d’individus
Pourquoi l’utilise-t-on ?
Scores standardisés peuvent être complexes pour les gens sans formation en psychométrie
Pour faciliter la communication des résultats à des non spécialistes, on peut utiliser les centiles
Centile: pourcentage de personnes dont le score est égal ou inférieur à un score standardisé donné
Un centile de 80 signifie que 80% des individus ont un score plus bas ou égal au score observé
Quel est le problème avec les centiles ?
La distance entre les scores n’est pas égale le long du continuum : informent moins bien où la personne se situe
Différences de scores entre les centiles sont très petites près de la moyenne et très grandes aux extrêmes de la distribution
Donc, les intervalles ne sont pas égaux le long de la distribution de centiles, contrairement aux scores standardisés
P. ex., la différence de scores standardisés entre le 51e et le 55e centiles peuvent être très petites (p. ex. T=3), alors que la différence entre le 95e et le 99e centiles peut être très grande (p.ex., T=20)
Les corrélations expriment le degré de correspondance (corrélation) entre deux séries de scores
Sont-elles standardisées ?
Oui. Elles varient toujours entre -1 et 1 et sont mesurées à partir des scores Z. On peut donc les comparer entre elles (comparer plusieurs échelles entre elles).
Une corrélation faible (prêt de 0) signifie que les individus ne sont pas dans le même __________ (entre deux échelles, deux temps de mesure, etc.), pas plus que le niveau attendu au hasard
Ordre relatif
La corrélation est un indice de la ______________ des individus. Expliquez.
R est un indice de la position relative des individus, n’informe pas sur le niveau absolu, ou la moyenne
Pour le niveau de signification, on teste si la corrélation observée est différente de 0
La corrélation est centrale en psychométrie.
P. ex., Plusieurs des coefficients de fidélité (que nous verrons plus tard) sont simplement des transformations d’une corrélation afin qu’ils varient de 0 à 1 (plutôt que de −1 à 1)
Il existe plusieurs types de corrélations :
- Pearson: deux variables continues
- Spearman: deux variables ordinales (ou non normales)
- Point-bisérielle: une variable continue et l’autre dichotomique
- Tétrachorique: deux variables dichotomiques
Malheureusement :
Les corrélations appropriées ne sont malheureusement pas toujours utilisées
Qu’est-ce que la fidélité ?
Concerne la précision de notre mesure, ou dit autrement, le niveau d’erreur de mesure qu’elle génère
Fait qu’un instrument «devrait donner les mêmes résultats d’une administration à l’autre»
Ex. si on se pèse 5 fois sur une balance mais qu’on a à chaque fois une valeur différente : mesure pas précise
Sur le plan clinique, avant de prendre des décisions importantes, on veut savoir à quel point les variations des résultats (entre différents individus, ou entre différents moments de mesure) résultent de différences réelles sur le construit qui nous intéresse ou plutôt d’imprécisions (erreurs) de l’instrument de mesure qu’on utilise
Autrement dit, on veut savoir à quel point le score «vrai» est estimé avec justesse
Score observé = score vrai + erreur de mesure.
Il y a toujours de l’erreur de mesure, dans tous les instruments. Vrai ou faux ?
Vrai
Les chercheur.se.s tentent de construire des instruments qui vont la limiter le plus possible
Les praticien.ne.s doivent bien connaître la fidélité des instruments qu’ils utilisent, pour faire une interprétation rigoureuse et pondérée
Supposons que la corrélation vraie entre l’impulsivité et la délinquance des adolescents est de 0,40 et les deux mesures sont très fiables (α = 0,90).
Comment calcule-t-on la corrélation dans cette situation ?
rxy = 0,40 √ (0,90) (0,90)
Quelles sont les deux grands types d’erreurs de mesure ?
- Aléatoires
2. Systématiques (ou biais)
Qu’est-ce qu’une erreur aléatoire ? Par quoi est-elle causée ? Comment la minimiser ? Comment l’évaluer ?
Fluctuations statistiques non reproductibles, toujours présentes pour tous les instruments. Autant au-dessus qu’en dessous de la moyenne (la moyenne reste la même). Distribuées normalement.
Causée par la variation dans l’échantillonnage.
Comment le minimiser : plus grands échantillons. Plus de moments de mesure (ex. la mesure est prise le soir, ce qui fait que les gens sont plus anxieux, on va contrôler l’erreur pus facilement en faisant la mesure le matin. ).
Évaluation : peut être facilement estimées/contrôlées statistiquement.
Qu’est-ce qu’une erreur systématique ? Par quoi est-elle causée ? Comment la minimiser ? Comment l’évaluer ?
Fluctuations constantes et reproductibles, qui sont toujours dans la même direction. Pas dans tous les instruments. Surestimation ou sous-estimations constante des paramètres (la moyenne bouge). Pas distribuées normalement.
Causée par une mauvaise utilisation de l’instrument, des conditions d’administration inadéquates ou une imperfection de l’instrument. Ex. faire passer un test en espagnol a des gens qui ne parlent pas espagnol.
Difficile à détecter, souvent ne sont pas connues.
Plus difficile à quantifier statistiquement.
Quels sont les quatre types de fidélité en fonction des sources d’erreur de mesure possible ? Quel est l’indice de fidélité utilisé pour estimer cette erreur ?
- Erreur d’échantillonnage de contenu dans les instruments pour lesquels des résultats cohérents au sens large sont souhaités
- Erreur d’échantillonnage dans le temps dans des instruments de mesure de traits ou comportements relativement stables
- Incohérence interne ou inter items dans des instruments qui requièrent une grande cohérence interne ou inter-item
Incohérence interne : deux construit peuvent ne pas être corrélés mais mesurer la même chose. Ex. une personne peut être active si elle bouge 4 fois par semaine et aussi si elle s’entraine uniquement la fin de semaine, mais beaucoup.
- Incohérence inter-informateurs dans des instruments qui impliquent un degré relativement élevé de subjectivité
Quel est l’indice de fidélité utilisé pour estimer l’erreur d’échantillonnage de contenu ?
Coefficient de fidélité des formes parallèles (cou coefficient de congruence).
Mesure classique de la fidélité : on développe deux formes équivalentes du même instrument et on estime la corrélation des scores entre les deux formes pour les mêmes individus. Ces échelles sont tout à fait similaires conceptuellement, mais avec des items légèrement différents (formes parralèles). On se demande si le fait de prendre des items aux hasards de plusieurs échelles donnent les mêmes résultats.
Ex. prendre toutes les échelles d’agressivité et mettre tous les items dans un chapeau et piger au hasard 15 items.
Les items sont choisis de façon QUASI-ALÉATOIRE (ex. si tous les items parlent de coup de poings on en choisit d’autres).
Comme les deux formes parallèles sont supposées mesurer le construit de la même façon, l’objectif est donc de voir le degré d’erreur dans le contenu
Corrélation élevée suggère bonne précision, ou dit autrement, peu d’erreurs de mesure
Pas vraiment de «coefficient limite» attendu, puisque la corrélation dépendra du contenu (complexité du construit), en plus de facteurs personnels des individus évalués
On s’attend quand même à 0,70 au minimum
Quel est l’indice de fidélité utilisé pour estimer l’erreur d’échantillonnage dans le temps ?
Coefficient de fidélité test-retest (ou stabilité temporelle).
Si on évalue les mêmes individus avec le même instrument à deux reprises dans le temps, est-ce qu’ils obtiennent les mêmes résultats ?
Pour l’estimer, l’intervalle de temps doit être assez court (environ 2 semaines à 1 mois)
Une corrélation élevée suggère bonne précision, peu d’erreurs de mesure
Pas vraiment de «coefficient limite», mais si la corrélation est forte (au moins 0,70), l’instrument est considéré fiable
Mais s’il y a un écart entre les résultats (corrélation faible), il est parfois difficile de déterminer les raisons :
Intervalle de temps? changement réel chez les individus? quantité d’erreurs de mesure?
De façon générale, il ne faut pas s’attendre à des corrélations très élevées pour la fidélité test-retest car certains construits changeants à travers le temps
P. ex., problèmes intériorisés changent plus facilement et rapidement que problèmes extériorisés
P. ex., Émotivité change plus qu’Extraversion
Quels sont les indices de fidélité utilisés pour estimer l’incohérence interne ou inter-items ?
- Coefficient de fidélité moitié-moitié : les chercheurs divisent en deux les items d’une échelle et on estime ensuite les corrélations entre ces deux moitiés, de façon quasi-aléatoire.
Une corrélation élevée indique bonne fidélité - Coefficient de cohérence interne :
les chercheur.se.s estiment l’homogénéité de tous les items d’une échelle (un indice par échelle)
Il s’agit d’un indice statistique quantifiant l’ensemble des inter-corrélations entre tous les items d’une échelle
Est-ce que les items d’une échelle forment un tout cohérent sur le plan empirique, sont assez fortement corrélés – et donc, génèrent peu d’erreurs de mesure
Quel est l’indice de fidélité utilisé pour estimer l’incohérence inter-informateurs ?
Coefficient de fidélité inter-juges (ou accord inter-juge).
Est utilisé quand la mesure est plus subjective (ex. consommation de drogue, comportement sexuels).
Pour l’estimer, si des informateur.rice.s (i.e., évaluateur.rice.s ou «juges») différents évaluent les mêmes individus avec le même instrument mesure, est-ce que la corrélation sera élevée ?
Qu’est-ce que la cohérence interne ?
Lorsque les chercheur.se.s créent des échelles, ils tentent de regrouper des items qui forment un tout cohérent, autant sur le (a) plan conceptuel que sur (b) le plan empirique.
On veut que les items représentent bien le construit mesuré. Est-ce qu’on a des items qui n’ont pas rapport dans mon construit et qui viennent générer de l’erreur de la mesure?
Ex. mordre quelqu’un n’est pas représentatif de son plaisir. Ou inquiétude avec coup de poing.
Autrement dit, il ne suffit pas que des experts suggèrent qu’un groupe d’items mesurent bien un construit, mais il faut aussi que les items soient significativement corrélés entre eux.
Avec des faibles corr., on peut se demander s’ils mesurent vraiment le même construit. Les échelles qui mesurent deux construits différents (hyperactivité et inattention) vont donc être un peu moins fidèles (alpha plus bas).
Quel est le problème méthodologique dans la cohérence interne avec le coefficient moitié-moitié ?
Problème méthodologique : avec moins d’items, les corrélations vont toujours être moins fortes, nonobstant le niveau de fidélité
«Prophétie de Spearman»: plus il y a d’items dans une échelle, plus sa fidélité est élevée.
Moins d’items : plus petites corrélations,
Plus il y a d’items : plus la fidélité est élevée : si on ajoute beaucoup d’items semblables, cela augmente la représentation.
Échelle brève : on peut appliquer la transformation de Spearman-Brown pour déterminer quelle serait la corrélation avec plus d’items
Quels sont les deux indices très utilisés pour le coefficient interne ?
- Alpha de Cronbach (α ; mesure l’homogénéité d’items continus) : varie entre 0 et 1. En clinique, on s’attend à 0,8 au moins. En recherche, 0,6. 0,7 est satisfaisant.
Si score près de 0 = l’échelle n’est pas précise ; elle génère beaucoup d’erreurs de mesure? Suggère que les questions de l’échelle sont trop indépendantes, ne vont pas ensemble
Si près de 1, suggère que les items d’une échelle sont cohérents, forment un tout; donc l’échelle génère peu d’erreurs de mesure
- Kuder-Richardson-21 (KR-21; pour items dichotomiques)
Un indice de Cronbach de 0,95 est considéré comme excellent. Vrai ou faux ?
Des indices plus élevés que Faux.
Des indices plus élevés que 0,95 sont parfois considérés moins intéressants parce que ceci suggère qu’il y a potentiellement redondance (trop de questions), certaines questions mesurent la même chose
Principe de parcimonie : les auteurs pourraient enlever certaines questions
Un indice de Cronback de 0,5 pour une échelle de 3 items est nécessairement considéré comme mauvais. Vrai ou faux ?
Faux.
Si les indices ne sont pas très élevés pour des échelles avec peu d’items (exemple α = 0,50 pour une échelle à 2 ou 3 items), cela ne signifie pas de facto un problème de précision
C’est attendu (i.e., «Prophétie de Spearman»)
On peut alors appliquer la transformation de Spearman-Brown pour connaitre la fidélité projetée de l’échelle si elle avait davantage d’items
Dans les instruments normatifs (ex. entrevues), les corrélations inter-juges sont généralement élevées. Vrai ou faux ?
Faux.
Pour les instruments normatifs (ex. entrevues), on obtient généralement des corrélations significativement plus faibles que pour les autres types de fidélité
Très rare d’avoir des corrélations parfaite entre parents, par exemple.
Différent.e.s informateur.rice.s provenant de différents contextes peuvent procurer de l’information différente (et complémentaire) à propos d’un même individu évalué
Donc, en dépit d’un coefficient de fidélité inter-juge plus faible, différents informateurs procureraient un profil comportemental plus «écologiquement valide» de l’individu. Expliquez.
Un enfant peut se comporter de façon différente selon le contexte, et son comportement peut être perçu de façons différentes. Ce n’est pas moins valide.
Quelle est la corrélation moyenne entre informateurs similaires (deux parents) ? Entre différents informateurs ? Entre le sujet et un autre informateur ?
Deux parents : 0,6
Différents informateurs : 0,28
Enfant-autre informateur : 0,22 (corrélations plus fortes pour EXT que INT)
Quels facteurs maximisent l’accord entre évaluateurs dans l’accord inter-juge ? (2)
Les informateurs :
1. Connaissent bien l’enfant (familiarité avec l’enfant, temps passé avec lui/elle assez élevé)
- Proviennent d’un même contexte d’observation (p. ex., deux enseignant.e.s, deux parents)
Qu’est-ce que l’erreur standard de mesure (ESM) ?
Parfois aussi appelée «erreur type de mesure»
Donne une indication du degré d’erreur de mesure associée aux scores d’une échelle.
En termes de score standardisé, il s’agit de l’ÉCART-TYPE DE LA DISTRIBUTION DES ERREURS. À quel point nos erreurs sont dispersés autour de la moyenne.
Le score vrai est théorique, on tente de l’estimer
P. ex., si un individu rempli 50 fois la même échelle, il n’obtiendrait pas le même score 50 fois, on observerait plutôt une distribution, avec une moyenne (qui serait le score «vrai»). La fidélité est pour savoir si on obtient toujours le même résultat d’une mesure à l’autre. Si on obtient pas les mêmes scores, on a beaucoup de variance et donc une grande erreur de mesure.
À partir de ces scores, une distribution des erreurs de mesure peut aussi être dérivée
L’ESM est inversement liée à la fidélité. Vrai ou faux ?
Vrai. Plus la fidélité est élevée, moins l’erreur standard de mesure est grande, et vice versa
Avec quoi l’ESM est-elle estimée ?
L’ESM est estimée à l’aide d’un coefficient de fidélité (Alpha de Cronbach ou autre)
ESM = ÉTt √ (1 – rt)
- ÉTt est l’écart-type des scores au test
- rt est la fidélité du test
Dans la pratique en évaluation, les ESM servent a construire un _______________autour du score observé. Qu’est-ce que c’est ?
Intervalle de confiance
Un intervalle de confiance est un estimé probabiliste permettant de situer le score observé à l’intérieur d’une étendue de scores donnée
Permet une interprétation plus rigoureuse qui tient compte de l’erreur de mesure
Selon les instruments, on peut parfois avoir des intervalles à 68% (1 ESM) et à 95% (2 ESM)
Pour la calculer, on doit additionner et soustraire la valeur de l’ESM au score standardisé observé
Que veut dire un intervalle de confiance de 95% ?
Intervalle de 95% = 5% de chance de se tromper. On est sur que la réponse est dans la zone de 95%.
95% = deux écart-type de la distribution des erreurs 68% = un écart-type
Un intervalle de confiance de 95% est plus précis mais également plus flou. Expliquez.
Un ESM plus précis (2 ESM) inclut un écart plus grand de vraies réponses possibles. Il est plus rigoureux mais également plus flou.
Ex. le score pourrait se retrouver dans deux étalons différents (dépasser le score critère). L’intervalle de confiance est plus grand que le score critère (celui qui fait basculer d’un écart-type vers un autre). On ne peut pas être sur qu’elle est réellement au dessus de la moyenne dans ce cas.
On doit se poser la question quant à la signification clinique de ce score : utiliser son jugement clinique et confirmer avec d’autres méthodes (ex. entrevue pour explorer l’enfance et la symptomatologie).
Quand on est pas loin du score critère, l’interprétation est plus compliquée à cause de l’erreur de mesure. Le score vrai peut être à plusieurs places différentes. Interpréter avec prudence : nommer qu’on est près des scores critères.
Importance de se fier à plusieurs types de tests/méthodes
Si l’erreur de mesure est plus petite (meilleure fidélité) alors cela réduit les scores probables et donc ce problème.
Qu’est-ce que la validité ?
Lorsqu’on évalue la validité d’un instrument de mesure, on veut généralement savoir s’il mesure vraiment ce qu’il prétend ou devrait mesurer
On veut savoir si l’échantillon d’items (i.e., les questions)de l’échelle représente bien le construit qu’on veut mesurer
Que détermine le degré de validité ?
Le degré de validité détermine l’interprétation et les inférences que l’on peut faire à partir des scores d’une échelle
Le nom d’un test ou d’une échelle ne constitue pas toujours un indice adéquat du construit mesuré. Vrai ou faux ?
Vrai.
Pour plusieurs auteurs, demander si un instrument «mesure vraiment ce qu’il prétend ou devrait mesurer» est trop général et fait peu de sens.
La vraie question n’est pas «est-ce que cet instrument est valide ou pas», mais bien :
«est-ce que cet instrument est une mesure valide de ce construit, pour cette population et pour cette application particulière»
Ex. Un outil utilisé pour les ado n’est pas valide pour un adulte. Un test pour une population particulière (ex. Québec) n’est pas valide pour une population différente (ex. Sénégal). Un test catégorielle ne peut pas mesurer de façon dimensionnelle un construit.
Si on utilise un test moins adapté pour une population, il faut en tenir compte dans l’explication du rapport et l’interprétation des résultats.
La validité d’un instrument ou d’une mesure doit donc être évaluée relativement à trois choses :
- Est-ce qu’il mesure bien le construit qu’il prétend mesurer ?
- Est-ce qu’il mesure bien ce construit pour la population ciblée (p. ex., groupe d’âge, niveau académique, groupe clinique particulier, etc.) ?
- Est-ce qu’il mesure bien ce construit pour une application particulière (p. ex., classifier dans des groupes diagnostiques, donner une valeur quantitative sur continuum, etc.) ?
Les organisations professionnelles soulignent trois points clés à propos de la validité des tests :
- La validité concerne l’interprétation des scores procurés par un instrument pour un construit spécifique; ce n’est pas une caractéristique de l’instrument
- La validité est une question de degré; ce n’est pas une question absolue, de «tout ou rien. C’est plutôt un degré selon la population et les circonstances.
- La validité d’un test repose sur de solides bases théoriques et empiriques
Quelles sont les différents types de validité ? (et leurs sous-types) (3)
- Contenu
- Construit
- Factorielle
- Convergente
- Discriminante - Critère
- Concomitante
- Prédictive
- Incrémentielle
Qu’est-ce que la vraisemblance ?
Le degré auquel une mesure semble adéquate et reliée à un construit spécifique selon le jugement de (a) ceux qui utilisent l’instrument et / ou (b) ceux qui sont évalués (i.e., non-experts qui sont évalués, ou représentants légaux reliés à la population ciblée, etc. P. ex., parents, enseignants, etc.)
Une mesure détient une bonne vraisemblance lorsque ceux qui l’utilisent jugent qu’elle semble pertinente pour mesurer ce qui doit être mesuré
La vraisemblance est un type de validité. Vrai ou faux.
Faux. Pas une forme ou source de validité
Parfois confondue avec la validité de contenu
Si l’instrument ne paraît pas valide ou vraisemblable pour ceux qui l’utilisent dans les situations concrètes d’évaluation, cela peut devenir une menace à la validité : si une personne qui subit le test n’a pas l’impression que la mesure est efficace, alors cela affecte la validité puisqu’elle répondra moins sérieusement.
P. ex., mesurer le niveau d’agressivité physique d’un enfant en lui faisant faire un dessin … ?
P. ex., l’item «je sens parfois mon âme sortir de mon corps» serait perçu comme peu valide dans plusieurs contextes (p. ex., sélection du personnel)
Quels sont les facteurs qui peuvent influencer la vraisemblance ?
- Contexte d’évaluation (p. ex., endroit physique de l’administration, les consignes, attitude et apparence physique de l’évaluateur, etc.) : si on a pas l’air professionnel, la personne ne croira pas les résultats.
- Capacités cognitives des répondants
- Santé mentale et état psychologique des répondants
- Personnalité des répondants
On veut diminuer l’effet qu’on peut avoir sur la personne quand elle va passer le test (bruit).
Qu’est-ce que la validité de contenu ?
Réfère au degré de représentativité des items (questions) utilisés pour mesurer un construit
La plupart du temps établie de façon déductive (avec un groupe d’experts qui déterminent si chaque item représente le construit ou non).
Comment la validité de contenu est-elle obtenue ? (2)
Typiquement, on demande à un groupe d’experts indépendants de se prononcer sur :
Est-ce que :
1. Chaque item individuellement correspond bien au construit ?
- Tous les items d’une échelle considérés dans l’ensemble constituent un échantillon représentatif de tous les domaines (ou sous-domaines) expliqués par le construit d’intérêt ?
Plus un construit est complexe, plus il est facile de faire un bon échantillonnage de contenu. Vrai ou faux.
Faux.
Plus le construit latent est complexe, plus il va être difficile à définir, car il va inclure beaucoup de sous-construits, et de sous-sous-construits. etc.
Ex. Problèmes extériorisés = opposition, hyperactivité, agression (crier, frapper, insulter, …), délinquance. Les niveaux de construits latents s’étendent à l’infini.
Si les tests sont trop longs, c’est une menace à la fidélité et la validité, car les sujets ne veulent pas compléter. Il faut être concis. Ex. tests de 3h en centres jeunesse.
En validité de contenu, la représentativité est centrale. Quelles aspects devons-nous nous évaluer ? (2)
- Tous les domaines (et sous-domaines) du construit sont-ils représentés ?
P. ex., agressivité physique, relationnelle, etc. - Éviter la sur- ou sous-représentation d’items des différents sous-domaines du construit
Avant de construire une échelle, il faut toujours décrire en détails et de la façon la plus compréhensive possible les différents domaines et sous-domaines du construit d’intérêt.
Donnez un exemple de questions qu’il faut se poser avec une échelle de problèmes extériorisés.
- Quels sont les domaines inclus?
- Quelle est l’importance relative de chacun? - Y a-t-il des sous-domaines selon la théorie?
- Quelle est leur importance relative? - Avec quels items peut-on bien représenter ces domaines et/ou sous-domaines?
À partir de quoi les chercheurs définissent un construit (et donc, son contenu) ? (3)
- Théories
- Recherches empiriques (recension)
- Connaissances et expériences professionnelles
Quels sont les deux types de validité de contenu ?
- Nominale : auteurs du test
2. Consensuelle : groupe de spécialistes indépendants
Comment estimer la validité de contenu empiriquement ? (2)
On demande à des experts indépendants d’estimer si :
(a) chacun des items d’une mesure est pertinent et représentatif du construit d’intérêt
(b) à quel point l’ensemble des items est un bon échantillon représentatif du contenu du construit
Afin de quantifier le degré de validité de contenu, on donne aux experts un choix de réponse avec une gradation à propos de chaque items afin de systématiser le tout :
P. ex., «Dans une situation sociale impliquant plusieurs personnes, j’ai de la difficulté à aller vers les autres»
- pas du tout pertinent / représentatif = 0
- un peu pertinent / représentatif = 1
- assez pertinent / représentatif = 2
- très pertinent / représentatif = 3
Puisqu’on a des données numériques, on peut donc calculer un Indice de validité de contenu.
Qu’est-ce que l’IVC-I et l’IVC-É ?
Ce sont des indices de validité de contenu.
IVC-I = Nombre d’experts qui ont jugés l’item représentatif (choix 2 ou 3), divisé par le nombre total d’experts
IVC-É = Proportion d’items jugés représentatifs (choix 2 ou 3) – ou dit autrement, la moyenne des IVC-I – divisée par le nombre total d’experts
Quelles sont les deux grandes menaces à la validité de contenu ?
- Inclusion de contenu conceptuellement / théoriquement non pertinent
P. ex., des items d’hyperactivité sont intégrés dans une échelle d’inattention
- Sous-représentation conceptuelle / théorique du construit (manque d’items)
P. ex., Théoriquement, le construit «Extraversion» inclut les domaines de l’activité, la sociabilité, la dominance sociale et la recherche de sensation, mais une échelle ne contient que des items de sociabilité et de dominance sociale
Qu’est-ce que la validité de construit ? Quelles sont les deux façons de la vérifier ?
Réfère au degré de (a) reproductibilité de la structure théorique sous-jacente à l’instrument ainsi que les (b) relations du construit d’intérêt avec d’autres construits externes
Deux grande façons de la vérifier :
- Validité factorielle
- Validité convergente / discriminante
Avant d’entamer les évaluations de la validité de construit, il faut :
bien connaitre la théorie sous-jacente au construit (savoir ce qu’on évalue et pourquoi)
Qu’est-ce qu’un réseau nomologique ? (validité de construit)
La théorie expliquant le construit par le biais de ses interrelations avec d’autres construits
Nomologie est «l’étude des lois», donc bien plus qu’une liste de domaines ou sous-domaines (étude des relations)
RN devrait donc représenter les interrelations (ordonnées et prévisibles) les plus importantes entre les domaines ou sous-domaines à la base du construit
Concerne souvent relations concurrentes, mais peut inclure des facteurs étiologiques et des conséquences développementales plus distales
RN devrait toujours être dans le manuel du test, mais y est rarement
Qu’est-ce qu’une relation concurrente ? étiologique ? distale ?
- Concurrente : arrive en même temps
- Étiologique = qui amène à (trouble des conduites vers personnalité antisociale)
- Distales = relation très éloignée et imparfaite (ex. TDAH et consommation de drogue à l’adolescence).
Un facteur est toujours latent. On pourrait donc dire qu’il est un synonyme de construit. Vrai ou faux.
Vrai.
La position du facteur détermine s’il est un domaine ou un sous-domaine.
Comment déterminer quels concepts sont apparentés dans un réseau nomologique ?
Déterminer les concepts apparentés est un choix de chercheur pour leur outils.
Qu’est-ce que la validité factorielle ?
On veut vérifier si la structure factorielle théorique est reproduite sur le plan empirique (i.e., avec des données)
On utilise généralement le terme «facteur» (ou trait latent) pour représenter une dimension
Pour savoir si nos items sont reliés, on fait une analyse factorielle. Est-ce que si on passe nos questionnaires, est-ce que les réponses vont s’agencer selon ce qui était prévu ?
Qu’est-ce qu’un facteur ?
Une réduction parcimonieuse de plusieurs variables (items ou questions) en une variable latente ou hypothétique
Dans les instruments multidimensionnels, les items se regroupent évidemment en plus d’un facteurs
En validité factorielle, quels sont les deux questions à se poser pour savoir si deux items sont inter-reliés dans la structure factorielle théorique (réseau nomologique) ?
- Les items sont-ils significativement (statistiquement) reliés au trait (construit) auquel ils devraient être reliés ?
- Dans le cas d’un instrument multidimensionnel, la structure hiérarchique est-elle reproduite (sous-domaines liés aux domaines, traits primaires et traits d’ordre supérieur) ?
Quels sont les deux types d’analyse factorielle ?
- Analyse factorielle exploratoire
2. Analyse factorielle confirmatoire
Qu’est-ce que l’analyse factorielle exploratoire ?
On identifie des regroupements d’items pour lesquels les individus donnent des réponses similaires
P. ex., Si les individus qui ont tendance à répondre oui à la Q#1 ont aussi tendance à répondre oui à Q#5 et à Q#8, ces items seront donc dans un même facteur
On impose aucune restriction à la matrice de corrélations (ou de covariances) entre les items
Critère classique : on devrait avoir des saturations de 0,40 ou plus pour les items associés à un trait
Qu’est-ce que l’analyse factorielle confirmatoire ?
Le chercheur impose une structure stricte a priori à la matrice de corrélations (ou de covariances) et teste si elle correspond aux données
C’est la méthode qu’il faudrait normalement employer à l’étape de la validation d’un instrument de mesure puisqu’on est supposé connaitre sa structure (ce n’est pas toujours le cas)
Dans le tableau : présence de 0. Les scores augmentent donc puisqu’on enlève certains chiffres du calcul.
Lorsqu’on fait des corrélations dans un tableau d’analyse factorielle, on obtient toujours la valeur vraie. Vrai ou faux.
Faux. On ne peut savoir ce que sont les vrais scores.
Qu’est-ce que la validité convergente et discriminante ?
- Validité convergente
- Degré auquel les scores d’une échelle sont associés avec ceux d’une autre échelle existante qui se rapporte au même construit théorique - Validité discriminante
- Degré auquel les scores d’une échelle ne sont pas associés avec une échelle qui ne se rapporte pas au même construit.
Ex. comparer une échelle d’introversion à une échelle d’extraversion pour vérifier qu’ils ne sont pas corrélés.
L’idéal pour tester rigoureusement la validité C / D est d’employer la méthode de la _____________.
Matrice multitraits-multiméthodes
Si on évalue un seul construit avec la même méthode deux fois de suite, quel est l’aspect que l’on évalue ?
Fidélité test-retest
Si on évalue deux construits différents au moyen de la même méthode, quel type de validité évalue-t-on ?
Validité discriminante (la méthode discrimine-t-elle bien les deux construits?)
Si je compare le même construit avec deux méthodes différentes, quel type de validité évalue-t-on ?
Validité convergente (le même construit est évalué avec deux méthodes différentes).
Si je compare deux construits différents sur deux échelles différentes, quel type de validité évalue-t-on ?
Validité discriminante.
On ne cherche pas un critère de corrélation de base (une valeur fixe). On veut juste voir s’il y a une différence.
Qu’est-ce que la validité de critère ?
Aussi appelé «validité pragmatique»
Réfère au degré auquel les scores à une échelle peuvent prédire l’adaptation (ou la performance) des individus
Les scores à l’échelle sont donc comparés à un critère externe
Il y a deux grands types de validité de critère :
Concomitante et prédictive
Dans la validité de critère, les scores à l’échelle sont comparés à un critère externe. Que devrait être ce critère ?
Le critère devrait être une mesure objective et indépendante, mais reliée conceptuellement au construit d’intérêt (réseau nomologique)
C’est un construit qui n’est pas le même que celui mesuré et qui est mesuré avec un différent outils.
Quelles sont les deux méthodes pour faire une validité de critère concomitante ?
1) Corrélation avec un critère indépendant
- Intelligence avec réussite académique
- Empathie (faible) avec conduites délinquantes
2) Méthode des groupes contrastés
- Différences de scores entre des groupes
P. ex., Pour EDC, on prend un échantillon d’enfants déjà identifiés avec des troubles du comportement (par psychologues scolaires) et on les compare avec un groupe d’enfants sans trouble du comportement afin de déterminer si les scores à l’EDC distinguent bien les groupes
Qu’est-ce que la validité de critère prédictive ?
Le degré auquel une mesure est capable de prédire un critère externe prospectivement, i.e. plus tard dans le temps
Besoin d’une étude longitudinale prospective
Qu’est-ce que la validité incrémentielle ?
Dans les faits, une forme spécifique de validité de critère (concomitante et prédictive) (Haynes & Lench, 2003)
À quel point un test a une «valeur ajoutée» pour prédire un critère externe, au-delà de la capacité d’autres facteurs prédictifs importants ?
En contexte de classification par ex., une échelle de prédiction qui procure une meilleure sensibilité et spécificité qu’une autre échelle similaire
Sur le plan clinique, ceci signifie qu’on prend de meilleures décisions avec la nouvelle échelle
Peut aussi s’appliquer à la révision d’un test
- La nouvelle version procure une meilleure sensibilité et spécificité que l’ancienne version
Qu’est-ce que la sensibilité ?
Capacité d’une échelle de procurer un résultat positif pour les personnes présentant le statut (p. ex., un trouble) qu’elle prétend identifier
Se rapporte donc à la capacité de détection
Dans le tableau 2X2, on voit qu’il s’agit des vrais positifs
Qu’est-ce que la spécificité ?
Capacité d’une échelle de procurer un résultat négatif pour les personnes ne présentant pas le statut (p. ex., un trouble) qu’elle prétend identifier
Se rapporte donc à sa capacité de discrimination
Dans le tableau 2X2, on voit qu’il s’agit des vrais négatifs
Les indices de sensibilité et de spécificité sont des observations empiriques de la _____________d’un test calculés à partir d’une classification de différents groupes diagnostiques (ou d’attributs autres). Ces indices renseignent sur la capacité de classification d’une échelle ou d’un test lorsque ce dernier est utilisé avec des personnes dont le statut est connu. Toutefois, en clinique, les tests sont utilisés avec des personnes dont le statut n’est pas connu (ou pas confirmé), par ex. pour le dépistage
On estime la proportion des individus dont le statut est ______ en regard du trouble mesuré qui obtiennent un score au dessus ou au dessous d’un score critère.
Ces indices sont déterminés par le ________ établi par les auteurs du test.
Performance rétrospective = on doit connaitre le vrai statut de la personne pour connaitre la performance du test.
Connu
Score critère
Si le score critère suggéré pour identifier le trouble est changé, les indices de sensibilité et de spécificité de l’échelle vont aussi changer. Vrai ou faux.
Vrai.
Plus le score critère augmente, plus la sensibilité baisse, et plus la spécificité augmente. Vrai ou faux .
Vrai.
Comment détermine-t-on le score critère en fonction de la sensibilité et de la spécificité ?
On trouve le score T avec le plus de compromis en terme de pourcentage, et on le prend comme score critère
En clinique, la tâche de l’évaluateur est de déterminer le niveau de confiance qui peut être accordé à un résultat positif (ou un résultat négatif) pour un individu classifié. Qu’est-ce que cela veut dire ?
Autrement dit, on veut savoir la probabilité qu’un individu présente réellement le trouble, étant donné un résultat positif à un test
Comment obtient-on les indices permettant d’estimer le niveau de confiance d’une échelle ?
Pour obtenir des indices probabilistes de ce genre, il faut calculer le pouvoir prédictif d’une échelle
Qu’est-ce que le pouvoir prédictif positif (PPP) ?
La probabilité qu’un individu avec un résultat positif sur une échelle ait réellement le statut prédit
i.e., proportion d’individus ayant un trouble qui obtiennent un résultat positif, parmi tout ceux qui ont obtenu un résultat supérieur au score critère
Qu’est-ce que le pouvoir prédictif négatif (PPN) ?
La probabilité qu’un individu avec un résultat négatif sur une échelle n’ait réellement pas le statut prédit
i.e., proportion d’individus n’ayant pas de trouble qui obtiennent un résultat négatif, parmi tout ceux qui ont obtenu un résultat inférieur au score critère
Les PPN et PPN sont des indices de performance ____________ d’un test et ils dépendent de la prévalence du trouble
Autrement dit, pour une sensibilité et spécificité données, les PPP et PPN vont varier selon la prévalence
extrinsèques
Sensibilité et spécificité sont des paramètres d’un test – ils ne sont pas influencés par le score critère choisi (la prévalence est fixe, puisqu’elle est connue). Vrai ou faux ?
Faux. Ils sont influencés par le score critère choisi
PPP et le PPN sont des paramètres d’un test ET de la prévalence du trouble. Vrai ou faux ?
Vrai.
Plus la prévalence est élevée, plus le pouvoir prédictif positif augmente. Vrai ou faux ?
Vrai.
Plus la prévalence est élevée, plus le pouvoir prédictif négatif augmente, Vrai ou faux ?
Faux. Il diminue.
Un test qui évalue un phénomène très rare aura un bon pouvoir prédictif positif. Vrai ou faux ?
Faux. Il aura un pouvoir prédictif très mauvais.
Avec une prévalence de 10%, Dépis-Dép classifie correctement 78 personnes, alors que 22 sont mal classifiées
24 personnes sont identifiées avec dépression, mais seulement 6 étaient vraiment dépressives
Le PPP est donc 6 / 24 = 0,25
76 personnes sont identifiées sans dépression, dont 72 étaient vraiment non dépressives
Le PPN est donc 72 / 76 = 0,95
Clairement, on peut avoir davantage confiance aux résultats ________ qu’aux résultats ________.
négatifs
positifs
Dans ce cas, si résultat +, on investigue plus.
Mais supposons que vous utilisez le Dépis-Dép dans un contexte où la prévalence est de 30%
Dans un échantillon de 100, 30 personnes seraient dépressives
Parce que la sensibilité est de 60%, 18 de ces 30 personnes obtiendraient un résultat positif, alors que 12 obtiendraient un faux négatif
SI 60% de sensibilité,
0,6 x 30 = 18
0,4 x 30 = 12
Parmi les 70 personnes sans dépression, puisque la spécificité est de 80%, 56 obtiendraient un résultat négatif, alors que 14 obtiendraient un faux positif
Si 80% de spécificité
0,2 x 70 = 14
0,8 x 70 = 56
Le PPP devient donc 18 / (18+14) = 0,56
Le PPN devient donc 56 / (12+56) = 0,82
Ainsi, on peut avoir davantage confiance en un résultat _______ sur l’échelle lorsque la prévalence est de 30% que lorsqu’elle est de 10%
positif
Quelle est la règle générale pour l’ensemble des tests de dépistage ?
Lorsque la prévalence est faible, le PPN > PPP – et l’inverse lorsque prévalence élevée
Nommez deux problèmes avec les indices de sensibilité, spécificité et de pouvoir prédictif.
- L’estimation de la sensibilité et de la spécificité à partir de catégories diagnostiques qui ne sont pas valides ou fiables peut clairement limiter la généralisation des résultats (p. ex., DSM ?)
- L’estimation de la prévalence réelle dans différents contextes cliniques peut être difficile
Néanmoins, des estimés imprécis (sans être grossièrement incorrects) n’ont pas un impact important sur le calcul du pouvoir prédictif pour les échelles qui ont une sensibilité et spécificité élevées.
Comment la fidélité et la validité sont-elles reliées ? (3)
- La fidélité est une condition nécessaire à la validité
- Est-ce qu’on mesure vraiment ce qu’on prétend mesurer si on fait beaucoup d’erreurs de mesure ? - La validité est un préalable à la fidélité
- À quoi sert de ne pas faire d’erreur de mesure si on ne sait pas ce qu’on mesure vraiment ? - Les indices de validité sont directement influencés par la fidélité
- Quantité d’erreur influence la taille des corrélations; le nombre d’items aussi (Prophétie de Spearman). Moins on a d’items dans notre échelle, moins notre fidélité est bonne. Cela modifie les corrélations de la validité. Les deux sont interreliés.
En fait, vous ne devez jamais oublier que les chercheurs valident l’utilisation d’un instrument pour une _______________________.
population particulière et/ou une utilisation particulière
Un instrument peut être tout à fait valide et fiable pour une population et une utilisation, mais pas du tout pour une autre
Ne jamais oublier : autant la fidélité que la validité est une ___________.
question de degré