Cours 10 et 11 Flashcards
Qu’est-ce qu’un biais?
C’est de l’erreur systématique qui n’est pas aléatoire
Vrai ou faux
Une chose très importante est de ne pas confondre différence de moyenne entre des groupes et biais
Vrai
Les différences de moyenne entre certains groupes ne constituent pas a priori un biais puisque certaines sont attendues sur le plan théorique / conceptuel
- e.g., À l’adolescence, peu ou pas de différences de moyenne entre groupes ethniques pour problèmes de comportement, mais différences selon le sexe/genre
- e.g., À l’âge adulte, présence de différences sexuelles dans certains traits de personnalité, mais peu ou pas à l’adolescence
Le public a parfois l’impression que tous les instruments d’évaluation sont ______________ (e.g., selon l’âge, selon le sexe/genre, selon le groupe ethnique, selon le groupe clinique, etc.)
C’est ___________ le cas et c’est le devoir de l’_______________________ des tests d’en être informé.e
Le public a parfois l’impression que tous les instruments d’évaluation sont BIAISÉS (e.g., selon l’âge, selon le sexe/genre, selon le groupe ethnique, selon le groupe clinique, etc.)
C’est PARFOIS le cas et c’est le devoir de l’UTILISATEUR.TRICE des tests d’en être informé.e
Un instrument d’évaluation est biaisé si…?
les différences entre les membres de différents groupes sont identifiées sur la base de caractéristiques autres que celles que l’instrument prétend évaluer. Autrement dit, il y a présence de biais pour un instrument si le contenu, la procédure ou l’utilisation favorise ou défavorise systématiquement les membres d’un groupe plutôt qu’un autre et si cette différenciation est non pertinente à l’objectif de l’instrument
Comme nous l’avons vu, la fidélité des scores d’un instrument d’évaluation peut être compromise par différentes sources d’_____________________.
Nous avons aussi vu que les inférences et les interprétations permises avec des scores procurés par un instrument d’évaluation sont tributaires du _________________________ de ces scores.
La validité peut être affectée directement par des (a) _______________________________________ ou par des (b) __________________________________.
Comme nous l’avons vu, la fidélité des scores d’un instrument d’évaluation peut être compromise par différentes sources d’ERREUR DE MESURE.
Nous avons aussi vu que les inférences et les interprétations permises avec des scores procurés par un instrument d’évaluation sont tributaires du DEGRÉ DE VALIDITÉ de ces scores.
La validité peut être affectée directement par des (a) BIAIS DE RÉPONSE AUX ITEMS INDIVIDUELS ou par des (b) BIAIS DES SCORES À UNE ÉCHELLE.
Vrai ou faux
La présence de biais est une question cruciale, autant pour les concepteurs.trices que les utilisateurs.trices de tests
Vrai
Vrai ou faux
Les personnes qui sont évaluées et doivent répondre aux questions, que ce soit à propos d’elles-mêmes ou en tant qu’informatrice pour un tiers, ont peu de chance d’être biaisés.
Faux
Les personnes qui sont évaluées et doivent répondre aux questions, que ce soit à propos d’elles-mêmes ou en tant qu’informatrice pour un tiers, risquent TOUJOURS d’être en partie biaisés.
Par exemple, lors d’une entrevue d’embauche où une personne doit répondre à un questionnaire de personnalité, est-ce qu’elle voudrait paraitre à son mieux? Ou même mieux qu’à son mieux? Même à un niveau de base, il est maintenant reconnu que le système cognitif de l’humain est «victime» de plusieurs heuristiques ou biais cognitifs
Qu’est-ce que l’heuristique?
Stratégies cognitives utilisées pour simplifier et accélérer une décision en situation d’incertitude.
- Parfois appelées «raccourcis mentaux»
- Un concept utilisé et très étudié en psychologie politique, les recherches sur les attitudes, etc.
- S’appliquent à l’évaluation/estimation des comportements
- Très utiles quand on ne connait pas assez bien une personne à évaluer
- Peuvent aussi mener à des erreurs de jugement et à «stéréotyper» les personnes
Nommer les 4 exemples connus d’heuristiques connus?
- Heuristique de la représentativité
- Heuristique de la disponibilité
- Heuristiques de primauté / de récence
- Heuristique de l’affect
Prad (prada)
Qu’est-ce que l’heuristique de la représentativité?
Évaluation d’une caractéristique spécifique en fonction de son degré de concordance à un prototype (e.g., évaluer l’attention d’un enfant en fonction de notre prototype du TDAH)
Qu’est-ce que l’heuristique de la disponibilité?
Évaluation qui est influencée par les choses qui viennent plus facilement (ou fréquemment) en tête à l’évaluateur (e.g., comportements d’agressivité des enfants). Ces choses qui viennent en tête plus facilement sont considérées plus fréquentes et plus représentatives de la réalité
Qu’est-ce que l’heuristiques de primauté et de récence?
Évaluation qui est influencée par la première vs la dernière impression de l’individu
Qu’est-ce que l’heuristique de l’affect?
Évaluation teintée par l’état émotionnel et affectif actuel (e.g., mauvaise humeur mène à estimer la présence de davantage de problèmes de comportement)
Expliquer ceci :
Les biais de réponse peuvent sembler banals, mais ils peuvent être très graves
ils influencent directement la validité des scores obtenus à un test. La validité «diminuée» peut en retour compromettre la qualité des inférences et des décisions cliniques qui sont prises à propos d’un individu (ou d’un groupe) évalué
Qu’est-ce que le biais de réponse extrémité?
Tendance à répondre très souvent par les catégories “extrêmes”, peu importe le niveau de l’individu sur le construit (i.e., score à l’échelle). Pour des items à choix de réponses multiples.
Qu’est-ce que le biais de réponse indécision?
Tendance à répondre très souvent par la catégorie centrale, peu importe le niveau de l’individu sur le construit (i.e., score à l’échelle). Pour des items à choix de réponses multiples.
Qu’est-ce que le biais de réponse acquiescement?
Tendance à endosser des items, sans égard à leur contenu. Répondre “oui” ou “vrai” dans les items dichotomiques; répondre du côté positif pour les items avec plus de deux choix de réponse. Aussi parfois appelé “gestion favorable des impressions”.
Qu’est-ce que le biais de réponse objection?
Tendance à rejeter des items, sans égard à leur contenu. Répondre “non” ou “faux” dans les items dichotomiques; répondre du côté négatif pour les items avec plus de deux choix de réponse.
Qu’est-ce que le biais de réponse de désirabilité sociale?
tendance à répondre de façon socialement désirable ou exagérément positive à des items positifs improbables, de façon à exagérer ses qualités. Aussi parfois appelé “échelle de mensonge”.
Qu’est-ce que le biais de réponse gestion défavorable des impressions (malingering)?
Tendance à répondre de façon socialement indésirable ou exagérément négative de façon à exagérer ses limites ou ses problèmes d’adaptation.
Qu’est-ce que le biais de réponse réponse aléatoire ou négligente?
Répondre aux items de façon aléatoire ou avec très peu d’attention au contenu des items.
Qu’est-ce que le biais de réponse deviner (guessing)?
Tendance à tenter de deviner la bonne réponse aux items. Pertinent seulement pour les tests de performance.
Que faire pour prévenir ou minimiser les biais de réponse?
- Gestion de la situation d’évaluation
Anonymat, minimiser la frustration, donner des avertissements (i.e., prévenir qu’il y a des échelles de validité) - Gestion du contenu des tests
Items simples (niveau de langage), items avec contenu neutre (i.e., non-suggestif), choix de réponse conceptuellement clairs - Tests ou échelles de validité spécialisées
Les échelles de validité sont basées sur quel principe?
Des scores très élevés ou extrêmes suggèrent un problème potentiel.
Qu’est-ce que l’échelle d’indétermination?
- Le questionnaire MMPI-2 complet compte plus de 567 questions
- On fait la somme des items non répondus, ou des items avec plusieurs réponses sur même item
Qu’est-ce que l’échelle de gestion défavorable des impressions?
- Tendance à répondre positivement à des items négatifs improbables (e.g., «je ne suis bon à rien»; «je n’ai aucun talent»)
- Effet difficile à départager avec cas cliniques sévères (e.g., dépression majeure ou trouble de personnalité dépressive, etc.)
Nommez 2 exemples d’échelles de désirabilité sociale et expliquer
- Échelle de désirabilité sociale de Marlowe-Crowne (Crowne & Marlow, 1960) :
e.g., «je ne mens jamais»; «j’aime tous les gens que je connais»; «je ne me suis jamais mis.e en colère». - Inventaire balancé de style de réponse socialement désirable (Pauhlus, 1984) – comprend deux échelles distinctes :
- Auto-déception : réponses généralement honnêtes, mais exagérément positives
- Gestion des impressions : réponses malhonnêtes, le biais positif sert à (a) plaire aux autres ou (b) obtenir des avantages
Qu’est-ce que l’échelle de style de réponse extrême?
- Critères proposés par l’EDC (Parent et al., 2006)
- i.e., choisir un nombre de fois anormalement élevé le 1e ou le 7e choix des items
Qu’est-ce que l’échelle d’indécision?
- Critères proposés par l’EDC (Parent et al., 2006)
- i.e., choisir un nombre de fois anormalement élevé la catégorie centrale, soit le 4e choix (celui du centre) des items
Qu’est-ce que l’échelle de validité de l’incohérence variable des réponses (VRIN/VIVR)?
Somme du nombre de paires d’items qui ont été répondues de façon incohérente
- Similaire: «Je ne pense pas avant d’agir» – «J’agis sans réfléchir aux conséquences»
- Différent: «Je ne pense pas avant d’agir» – «J’y pense bien avant de prendre des décisions»
On donne 1 pt pour chaque paire incohérente et calcule une somme
Sert à détecter les réponses aléatoires (intentionnelle ou non) ou la confusion dans un questionnaire
Qu’est-ce que l’échelle de validité de l’incohérence vraie des réponses (TRIN)?
- Dans celle-ci, on utilise seulement des paires d’items qui sont conceptuellement différentes
- On calcule une somme des paires d’items répondues vrai de façon incohérente, moins la somme des paires d’items répondus faux de façon incohérente
- Sert à détecter les réponses incohérentes qui révèlent l’acquiescement (score très élevé) ou l’objection (score très faible, possiblement négatif)
Qu’est-ce que le biais des items?
- Il ne s’agit pas des différences de scores sur le trait, mais des différences systématiques dans la probabilité de répondre d’une façon donnée pour chaque item individuellement, une fois que le niveau du trait est contrôlé
- Aussi appelé «fonctionnement différentiel des items»
- On compare la probabilité d’endosser les items d’une échelle des individus de différents groupes qui ont le même score/niveau sur le trait
- Même principe que les variables de contrôle dans les études prédictives (e.g., lorsqu’on «contrôle pour le SSÉ»)
p.23-24
Voir exemples
Qu’est-ce qu’un biais structurel selon un instrument unidimensionnel et un instrument multidimensionnel?
- Pour un instrument unidimensionnel, il peut s’agir de différences significatives des saturations factorielles entre deux groupes (Pas banal puisque ceci signifie que le trait n’est pas mesuré de la même façon dans différents groupes)
- Pour un instrument multidimensionnel, (a) différences des saturations et (b) la structure factorielle n’est pas la même dans différents groupes (ne mesure pas de la même façon dans les différents groupes)
- e.g., analyse factorielle révèle 3 facteurs pour les hommes, mais seulement deux pour les femmes
p.26
Voir exemple
Qu’est-ce qu’un biais critériel?
- S’applique autant à la validité de critère concomitante (critère indépendant et groupes contrastés) qu’à la validité prédictive
- e.g., Un trait tempéramental qui prédit l’adaptation ultérieure pour un groupe d’enfants, mais pas pour un autre
- e.g., un test de QI prédit la réussite pour un groupe culturel, mais pas pour un autre
Expliquer ceci :
L’observation de différences entre des groupes pour les relations prédictives peut être attendue
C’est ainsi puisque ceci est justifié théoriquement … il ne s’agit alors pas d’un biais
Aucune théorie et aucune recherche pour justifier ça = biais
Qu’est-ce qu’un biais de la fidélité?
- Les estimés de la fidélité sont significativement différents dans différents groupes
- Peut être potentiellement important pour l’interprétation
- s’il y a un biais, le niveau de confiance qu’on peut avoir envers les scores d’une échelle varie d’un groupe à l’autre
- Les différences de groupe observées au niveau des moyennes peuvent alors être en partie expliquées par de l’erreur
Bien que faire du «testing» en comparant des groupes selon le sexe/genre, l’origine ethnique ou culturelle, le groupes clinique, etc., puisse être informatif pour plusieurs chercheurs ou chercheuses, souvent, on fait de la «_____________________»
sur-généralisation
Vrai ou faux
La variation entre les individus d’un même groupe (variance intragroupe) est faible
Faux
La variation entre les individus d’un même groupe (variance intragroupe) peut être ÉNORME (voir p.30)
En tant que psychoéducateur.trice, il ne faut jamais perdre du vue que l’objectif d’une évaluation psychoéducative est d’interpréter les scores et de faire des recommandations pour UN individu particulier
Nommer quelques tests utiles en psychoéducation?
- Tests d’aptitudes intellectuelles / capacités cognitives
- Tests de rendement
- Tests neuropsychologiques (Non, pas le droit- acte réservé)
- Mesures de personnalité / tempérament
- Mesures d’intérêts, attitudes et valeurs
- Mesures de psychopathologies (test de dépistage)
Quelle catégorie de tests est souvent oubliée dans les livres en psychologie?
Mesures de construits environnementaux (situations familiales, styles parentaux, dangerosité du quartier, environnement scolaire)
De façon générale, les organisations professionnelles s’attendent à ce que les auteurs.trices aient construit leur instrument en respectant les critères répertoriés dans les ________________________________________________
Standards du testing en éducation et en psychologie
Expliquer ceci :
La construction et la validation d’un test est un processus à long terme
- Nécessite des révisions avant d’être pleinement satisfaisant
- Peut s’échelonner sur plusieurs années, voire quelques décennies
Le processus de construction s’opérationnalise selon différentes étapes successives.
Ces étapes peuvent varier, certaines étant ________________ pour certains types de tests, alors que d’autres sont _______________ ou même ________________ pour d’autres types de tests.
Certaines propriétés psychométriques sont ________________ pour certains types de tests
e.g., évaluer la capacité de classification (sensibilité, spécificité) est ________________ pour les tests de dépistage des problèmes d’adaptation ou des psychopathologies
Le processus de construction s’opérationnalise selon différentes étapes successives.
Ces étapes peuvent varier, certaines étant ESSENTIELLES pour certains types de tests, alors que d’autres sont SUPERFLUES ou même IMPOSSIBLES pour d’autres types de tests.
Certaines propriétés psychométriques sont CRITIQUES pour certains types de tests
e.g., évaluer la capacité de classification (sensibilité, spécificité) est ESSENTIELLE pour les tests de dépistage des problèmes d’adaptation ou des psychopathologies
Quelles sont les 2 grandes méthodes de construction des tests?
- Déductive (ou rationnelle)
«conclure en partant de propositions prises pour prémisses» - Inductive (ou empirique)
«conclure en remontant des faits à la loi»
Qu’est-ce que la méthode déductive (rationnelle)?
À partir d’un cadre théorique
- Théorie scientifique (Construits, domaines, indicateurs (les concepteurs.trices du test les déterminent en fonction de la théorie))
- Théorie clinique (On veut répondre à un problème ou besoin pratique / e.g., comment mesurer l’intervention des PSE? Comment mesurer la motivation au changement?)
Quels sont les avantages et désavantages de la méthode déductive (rationnelle)?
Avantage:
- Contexte théorique clair, cohérence logique (i.e., réseau nomologique souvent connu a priori)
Désavantages:
- Subjectivité face à la théorie et théorie implicite
- On ne sait pas si cela fonctionne dans la réalité sans faire des études empiriques (i.e., la structure factorielle, validité de critère, etc.)
- On ne sait pas si les répondants.es interpréteront les items inspirés de la théorie (et en conséquence, les construits) de la même manière que le concepteur.trice du test le croyait
- e.g., une échelle d’évaluation du mécanisme de défense de l’humour est en fait reliée à l’Extraversion
Qu’est-ce que la méthode inductive (empirique)?
Basée sur une démarche empirique (ou factuelle, ou pragmatique)
- Analyse d’items / Analyse factorielle : les items statistiquement liés au construits sont sélectionnés (peut aussi inclure cohérence interne, validité de critère, etc.)
- Sélection critériée : e.g., seuls les items qui différencient des groupes sont sélectionnés (e.g., échelle Antisocialité du MMPI-2)
Vrai ou faux
Dans la méthode inductive, la démarche n’est jamais complètement empirique
pour générer des items
Vrai
il y a toujours une théorie sous-jacente, même si elle est implicite
Quels sont les avantages et désavantages de la méthode inductive?
Avantages:
- Plus grande objectivité et plus représentatif de la réalité; on vérifie notre compréhension d’un construit, appuyée explicitement par des données
Désavantages:
- On n’arrive pas nécessairement à ce qu’on voulait, les données dictent le résultat final (e.g., structure factorielle, etc.)
- e.g., les données suggèrent que les items d’anxiété et de dépression sont combinés dans un seul facteur
- Les statistiques peuvent parfois dénaturer les concepts en raison de biais d’échantillonnage
- e.g., les statistiques suggèrent d’éliminer un aspect clinique important, alors que les résultats discordants sont surtout le fruit d’un mauvais échantillonnage, ou trop petit échantillon
Sur quoi se basent les différents types d’items et de choix de réponses?
- Type de construit évalué
- Utilisations particulières d’un instrument
- Préférences personnelles des auteurs.trices
Quelles sont les différentes façons de présenter des questions?
- verbalement en entrevue
- visuellement en version papier-crayon
- visuellement en version informatique (sur ordinateur fixe, ou avec application sur un téléphone intelligent, une tablette)
Qu’est-ce que les items à réponses construites?
- Aussi appelés «questions à développement» ou «à réponse ouverte» ou «à réponse libre»
- Une prémisse est présentée à la personne évaluée, mais pas de contrainte sur un choix de réponse fixe
- Les questions à réponses construites sont essentielles en entrevue
- Il y a néanmoins certaines règles, ce qui fait qu’il existe des (a) questions ouvertes à réponse longue et (b) des questions ouvertes à réponse succincte
Un exemple de réponse longue serait :
«Décrivez-moi votre relation habituelle avec votre enfant? »
Un exemple de réponse succincte serait :
«En utilisant au maximum 4 ou 5 mots, complétez la phrase suivante : “Ma relation habituelle avec mon enfant est” : __________»
Qu’est-ce que les items à réponses sélectionnées?
- Aussi appelés «questions objectives», «à choix forcé», «à choix multiples», «vrai ou faux»
- Une prémisse est présentée à la personne évaluée et elle est placée devant la contrainte cognitive d’un choix de réponse fixe
- Il s’agit du type d’items le plus utilisé dans les instruments d’évaluation en sciences humaines, sociales et psychologiques
- Plus objectifs, plus facile de dériver un score numérique, plus fiables, plus brefs, etc.
Il est toujours recommandé que les items aient certaines caractéristiques souhaitables pour éviter les biais, quelles sont-elles?
niveau de langage simple, bref, choix de réponses simples, évite le contenu multiple, etc.
Vrai ou faux
Les études montrent que les questions sur des sujets sensibles peuvent causer des problèmes particuliers
Vrai, notamment en augmentant la non-réponse, la dissimulation et la distorsion
Qu’est-ce qu’une traduction maison?
(1) sans aucune étude vérifiant leurs propriétés psychométriques et/ou (2) sans recueillir des normes québécoises
Nécessite souvent une adaptation, car la compréhension du contenu, le sens/signification des items est plus important que la traduction exacte
Quelles sont les 6 étapes de l’adaptation transculturelle?
- Traduire et adapter les items (2 personnes minimum) (Méthode de choix : Traduction à rebours («back translation»))
- Experts.es indépendants.es révisent la traduction
- Éliminer ou adapter les items selon leurs commentaires
- Étude pilote auprès des individus ciblés
- Validation empirique (évaluation détaillée des propriétés psychométriques)
- Standardisation (établir des normes)
Quelles sont les 5 façons d’établir l’équivalence transculturelle et expliquer?
- Équivalence sémantique
Items veulent dire la même chose dans les deux langages/cultures ? - Équivalence de contenu
Est-ce que chaque item est pertinent dans les deux langages/cultures pour mesurer le construit ? - Équivalence de construit
Est-ce que les saturations factorielles sont similaires? Est-ce que la structure factorielle est la même? Est-ce que la validité C/D est similaire? - Équivalence critériée
Parfois assez difficile de conclure à la non équivalence critériée
e.g., avec une mesure de pratiques parentales, une pratique liée aux problèmes d’adaptation seulement dans une version (ou culture) n’est pas nécessairement un problème de l’instrument - Équivalence de la fidélité
Vrai ou faux
Les différences de moyennes entre échelles ou items est un biais
Faux
Cela ne représente jamais un biais.
Vrai ou faux
Il est impératif de ne pas inscrire : les hommes sont tous… et les femmes sont toutes…
Vrai
Se sont des moyennes, il y a une distributions, donc différents scores. Les mots utilisés sont très importants.
Quels sont 4 exemples d’échelle de réponse?
- Échelle de fréquence
- Échelle de variété
- Échelle d’intensité / gravité
- Échelle de Likert
Voir p.48