Psychométrie Flashcards
Qu’est-ce que la mesure?
Attribution de nombres à des objets, à des événements ou à des individus selon des règles préétablies dans le but de déterminer la valeur d’un attribut donné.
- Dans l’approche quantitative: nombres attribués à des objets/catégories pour représenter la quantité d’une caractéristique
- Dans l’approche qualitative: objets assignés à des catégories qui s’excluent mutuellement de façon à représenter la nature de la caractéristique
Pour quelles raisons, la mesure est importante?
- Mesurer, de façon standardisée, les différences entre les personnes ou les réactions de ces personnes dans des situations différentes
- Guider la prise de décision et tirer des conclusions dans différents contextes
- Évaluer les changements ou les progrès (ex. MCID)
- Déterminer la « normalité » (valeur de référence)
- Globalement: évaluer les phénomènes avec le degréde précision le plus élevé possible****
Vrai ou faux, un instrument de mesure permet de mesurer un phénomène?
Faux,
Attention: On ne mesure pas le phénomène en soi, mais ses caractéristiques (nature indirecte)
Qu’est-ce qu’une variable et qu’est-ce qu’un construit?
•Variable: attribut pouvant prendre différentes valeurs
•Construit: variable abstraite
– Concept représentant un comportement ou un évènement non observables
Ex: autonomie (ne se mesure pas en une seule variable)
Quelle est l’arborescence des échelles de mesure selon les variables?
Échelles de mesure:
- Catégoriques (discrètes)
- 1 Nominales
- -> Dichotomiques ou polychotomiques - 2 Ordinales
- Numériques
- 1 Discrètes
- 2 Continues
- -> Par intervalle ou Ratio
Qu’est-ce qu’un échelle de mesure nominale, ordinale, discrète et continue?
Nominale:
•Objets classés dans une catégorie donnée à l’aide de nombressans valeur numérique (ex. sexe, nationalité, etc.)
Ordinale
•Éléments classés en fonction de leur valeur relative (nombre) représentant un rang ou un ordre de grandeur(ex. mesure de la mobilité)
Discrète
•Valeurs sont des entiers et représentent un nombre fini (ex. nombre d’hospitalisations)
Continue
•Valeurs ont un nombre potentiellement infini et sont sur un continuum
Par intervalle: Absence de zéro absolu (ex. température)
Ratio: Présence d’un zéro absolu (ex. âge)
Différencier une donnée catégoriques d’une données continues (numériques)?
Catégoriques:
Les données se classent dans des catégories mutuellement exclusives.
• Les données peuvent (ou non) être assignées en fonction de valeurs numériques
Attention! Ces valeurs numériques ne représentent pas un nombre, mais plutôt une catégorie.
Ex: Cote d’un bilan musculaire
Continues:
Résultats d’un test sur un continuum: valeurs potentiellement infinies
•Le nombre représente une valeur numérique réelle
Ex: Bilan articulaire
Qu’est-ce qu’un échelle de Likert?
Échelle qui permet de quantifier des valeurs catégoriques en continue.
Les choix de réponses sont défini en fonction de l’objet de mesure: niveau d’accord, occurrence, importance, qualité, etc.
Toutefois, il est important de conserver une restriction dans son interprétation car la différence entre le choix 1 et 2 n’égale pas la différence entre le choix 3 et 4 .
Il est mieux d’utiliser un nombre pair de choix. Améliore l’interprétation.
Maintenant pratique va te pratiquer à identifier des échelles pour mesurer différentes variables?
Diapo 13 du powerpoint psychométrie
Qu’est-ce qu’une valeur de référence, une population de référence, un échantillon de référence et des individus de référence?
Valeurs de référence («normalité»): valeurs obtenues pour une population dans des conditions données
Population de référence: renferme toutes les personnes susceptibles de servir de référence (c.-à-d. possédant les caractéristiques recherchées)
Échantillon de référence: nombre d’individus représentant la population de référence
Individus de référence: sélectionnés à l’aide de critères précis et clairs = groupe de référence
Quelles questions doit-on se poser avant de sélectionner des valeurs de référence?
Questions à se poser avant de sélectionner des valeurs de référence:
- Le groupe de référence possède-t-il des caractéristiques semblables à mon patient?
- L’échantillon est-il représentatif de la population?
- L’échantillon inclut-il assez de cas pour avoir un bon degré de précision?
- L’échantillon est-il divisé de manière appropriée?
Qu’est-ce qu’une référence normative?
Mesures de référence basées sur des normes sont dépendantes de l’échantillon.
Comparaison entre le résultat d’un patient à une évaluation et celui d’individus représentant un groupe de référence (norme).
Score brut transformé en un score standard ou un rang percentile.
Objectif: Discriminer/Différencier les individus sur la variable de mesure.
–Est-ce que le patient se situe dans les valeurs habituellement attendues ou non (ex. par rapport à son âge)?
–Est-ce que le patient est éligible aux services(ex. services d’aide à domicile, prêt d’une aide technique)?
Qu’est-ce qu’une référence critériée?
Mesures de référence basées sur des critères
Comparaison d’un patient avec lui-même à différents moments dans le temps
- On s’intéresse à mesurer l’atteinte d’un résultat par le patient et non à le comparer avec d’autres individus
- Score standard (point fixe) établi par des experts
Objectif: Évaluer l’individu de manière à comparer sa performance par rapport à des seuils préétablis
Est-ce que le patient s’est amélioré depuis son entrée à l’unité de réadaptation? (Prise d’une mesure à son admission et une autre à son congé)
Qu’est-ce qu’une erreur de mesure et quelle sont ses 2 types?
C’est l’écart entre la mesure réelle et celle prise avec l’instrument de mesure.
Valeur observée = Valeur réelle +/- l’erreur de mesure
Elle n’est pas connue, mais on peut l’estimer
2 Types:
- Erreur aléatoire
- Erreur systématique
Qu’est-ce qu’une erreur aléatoire (trait error)?
- Erreur qui est attribuable au hasard et à des facteurs subjectifs (ex. caractéristiques individuelles comme la fatigue, l’humeur)
- Ne peut pas être évitée et prédite
- Entraîne des surestimations et des sous-estimations -> Sur un grand nombre d’observations, sa moyenne va tendre vers zéro
Qu’est-ce qu’une erreur systématique (méthod error)?
Aussi appelée « biais »: erreur prédictible
•Attribuable à des facteurs permanents qui surviennent de façon constante (ex. caractéristiques de l’instrument de mesure)
•Plus grave que l’erreur aléatoire, car elle représente des biais pouvant généralement être résolus
Ex: évaluateur qui ne suit pas une procédure standardisée
Elle est plus grave que l’erreur aléatoire car nous avons un contrôle dessus.
Quelles sont les 3 sources d’erreurs qui affectent principalement la qualité des données recueillies?
- L’instrument de mesure lui-même (ex. balance mal calibrée)
- Un problème relié à la personne évaluée (ex. stress, fatigue)
- Un problème relié à l’évaluateur (ex. connaît l’hypothèse de recherche, utilisation erronée du goniomètre)
Comment pouvons nous réduire l’erreur d’un instrument?*****
- Instrument de mesure (saisie de données)
- Calibration des instruments
- Données manquantes ou aberrantes
- Logiciel utilisé (Excel, SPSS, InVivo, etc.) - Personne évaluée (variations des caractéristiques mesurées)
- Saison, moment de la journée - Évaluateurs (variations relatives aux utilisateurs des instruments)
- Formation et standardisation (nb répétitions)
- Assignation à l’insu
- Comparer la distribution selon l’évaluateur
Qu’est-ce que la fidélité comme qualités psychométriques des instruments de mesure?
Correspond à la reproductibilité, la précision et la constance(stabilité) de la mesure.
Quels éléments permettent d’améliorer la fidélité d’un test?
- La standardization du test, en réduisant la variabilité de la situation d’évaluation du patient.
- En réduisant l’erreur d’un instrument de mesure (revoir la carte)
- Augmenter le nombre d’items (mais à faire attention car la qualité de ses items sont importants)
Quels sont les types de fidélité et les définir?
- Fidélité test-retest
- Stabilité temporelle
- Mesure la stabilité de la mesure en comparant les résultats de deux évaluations (ou plus) du même sujet effectuées à deux moments différents
- N’implique pas d’observateur
- Dépend à la fois de la stabilité de la mesure et de la stabilité du sujet/participant étudié - Fidélité inter-observateurs
-Cohérence entre plusieurs observateurs
Équivalence intercodeurs: Comparaison des résultats obtenus par deux ou plusieurs évaluateurs évaluant le même sujet, avec le même instrument. - Cohérence interne (ou homogénéité)
- Force qui relie les énoncés
- Exprime l’homogénéité de l’instrument: Est-ce que les énoncés mesurent différents aspects d’une même variable?
- Utile lors d’une seule administration de l’instrument: relativement un grand échantillon
Comment et quels éléments doivent être considérés dans l’interprétation d’une fidélité test-retest?
•Intervalle de temps entre les deux mesures:
-Compromis entre l’effet de mémoire/d’apprentissage et l’évolution/maturation du phénomène (ex. passation d’un test de dépistage cognitif)
•Estimation:
- Kappa de Cohen (catégorique; nominale)
- Coefficient de corrélation intra-classe (continue)
- Indice de concordance de Kendall (ordinale)
•Interprétation: coefficient > 0,70 = stabilité élevée
Quels sont les 2 types de fidélité inter-juges?
- Fidélité inter-juges simultanée(ou synchrone): Observation simultanée, sans interaction entre les juges
- Fidélité inter-juges non simultanée (asynchrone): Observation à deux temps de mesure différents, sans interaction entre les juges
- -> Notion de stabilité temporelle ici à considérer (donc moins prioriser que synchrone)
Comment doit-on interpréter une fidélité inter observateurs?
Peut s’exprimer par:
–Pourcentage d’accord (indication sur l’importance de l’erreur survenue en cours d’observation)
–Coefficient de corrélation
•Estimation:
- Kappa (catégorique)
- Kappa pondéré ou indice de Kendall (ordinale)
- Coefficient de corrélation intra-classe (continue)
Permet de compenser le tir sur l’erreur aléatoire qui n’avait pas été prise en compte (a discuté)
Comment doit-on interpréter une cohérence interne?
Par le coefficient alpha de Cronbach(α)
•Varie en fonction du nombre d’énoncés dans l’échelle de mesure -> plus le nombre est élevé, plus la valeur du coefficient le sera
•Valeur du coefficient: entre 0 et 1 (une valeur élevée indique une grande cohérence interne)
•Si le coefficient > 0,90 = possible redondance des items
Peut aussi se faire par:
- Moitié-moitié (split-half): division des énoncés de l’outil et corrélation des résultats des 2 moitiés
- Inter-énoncés: Mesure de la relation entre chaque énoncé d’une échelle et le score total.
Comment doit-on interpréter une mesure de fidélité peu importe le type de fidélité utilisé?
Plusieurs classifications sont proposées pour l’interprétation des coefficients:
« Bonne fidélité »: coefficient se situe généralement entre 0,70 et 0,90
- Attention! Plus il y a d’énoncés dans une échelle de mesure, plus la fidélité est grande
- Le niveau de fidélité exigé dépend de l’utilisationde l’outil de mesure
•Coefficients les plus souvent utilisés :
- Kappa de Cohen pour les échelles catégoriques
- Coefficient de corrélation intra-classe pour les échelles continues
Qu’est-ce qu’un kappa de cohen?
Le pourcentage d’accord ne tient pas compte du hasard
Le Kappa corrige cette situation: il dépend à la fois du pourcentage d’accord observé entre deux mesures et du pourcentage d’accord dû au hasard
Ce coefficient de fidélité varie de -1 à +1 ou:
-1 = absence totale de concordance,
0 = concordance exclusivement attribuable au hasard
+1 = une concordance parfaite
Qu’est-ce qu’un coefficient de corrélation intra-classe?
Coefficient de fidélité pour les échelles de variables continues.
Obtenu par l’entremise d’une analyse de variance.
Variant de -1 à 1.
Qu’est-ce que la validité?
Correspond au niveau de confiance envers les résultats, au degré de précision avec lequel le concept est représenté par les énoncés de l’outil.
Concerne l’ampleur de l’erreur systématique
De quoi dépend la validité selon la conceptualisation de la trinité?
- la validité de construit
- la validité de critère
- la validité de contenu
Qu’est-ce que la validité de construit?
Capacité de l’instrument à correspondre aux concepts du construit (sous-jacent à une théorie) concernant le phénomène étudié.
Construits: souvent multidimensionnels et non-directement observables
Quelles sont les différents types de validité contribuant à document la validité de construit?
- Validité concurrente
- Validité convergente
- Validité divergente
- Validité discriminante
- Validité prédictive
Qu’est-ce que la validité concurrente, convergente et divergente?
Concurrente:
- But: Prédire les résultats d’un autre outil de mesure
Convergente:
- But: Démontrer que le nouvel outil de mesure permet de dégager des résultats similaires à un autre outil s’intéressant au même construit
- Corrélées positivement
- Est-ce quel’instrument évalué mesure des variables similaires du construit avec lesquelles il devrait être relié?
Les validités ci-dessus réfèrent toutes deux à l’utilisation de mesures corrélationnelles (coefficient de Pearson) afin de documenter des relations entre deux mesures d’un même construit
Divergente:
But: Démontrer que le nouvel outil de mesure permet de dégager des résultats différents à un autre outil s’intéressant au même construit
- consiste à comparer deux ou plusieurs instruments entre eux qui mesurent des construits différents.
- Corrélées négativement
- Est-ce que l’instrument évalué mesure des variables différentes du construit visé, c’est-à-dire des variables avec lesquelles il ne devrait pas être relié?
Qu’est-ce qu’une validité discriminante?
Comparaison des résultats de deux groupes d’individus.
Permet de discriminer des individus, de les «différencier» en:
- Individus qui possèdent la caractéristique relative au construit mesuré
- Individus qui ne possèdent pas la caractéristique relative au construit mesuré
Quelle est la relation entre la fidélité et la validité d’un instrument de mesure?
Pour être valide, un instrument doit être fidèle, MAIS il peut être fidèle et non valide
•Un instrument peut être valide dans un contexte et non valide dans un autre
Comment doit-on interpréter la validité d’un instrument de mesure?
Les coefficients de validité qui sont généralement jugés satisfaisants (0,60) sont en moyenne moins élevés que ceux de fidélité (0,70 -0,90).
Qu’est-ce que la validité prédictive?
Validité prédictive: Étude de la précision d’une mesure afin de déterminer une performance future
Utilise souvent les concepts de spécificité et la sensibilité pour documenter cette validité prédictive des instruments servant à dépister ou diagnostiqué.
Qu’est-ce que la sensibilité et la spécificité d’un instrument prédictif?
Sensibilité (Sn): Capacité d’un instrument à classer adéquatement les participants ayant la caractéristique étudiée (vrais positifs)
Spécificité (Sp): Capacité d’un instrument à reconnaître les participants qui n’ont pas la caractéristique étudiée (vrais négatifs; sujets «sains»)
Quelles sont les valeurs prédictives qui permettent d’établir la validité de l’interprétation d’un test?
Valeur Prédictive Positive (VPP) :Capacité du test à bien prédire la «maladie» surtout influencée par la spécificité du test
Valeur Prédictive Négative (VPN) :Capacité du test à bien «éliminer» un diagnostic surtout influencée par la sensibilité du test
Toutes 2 dépendent de la prévalence…
La VPP augmente si la prévalence augmente et la VPN diminue si la prévalence augmente
Qu’est-ce qu’un likelyhood ratio (ratios de vraisemblance) et pourquoi il est préférable de l’utiliser plutôt que les valeurs prédictives?
La sensibilité et la spécificité à elles-seules n’indiquent pas que la maladie est présente (ou absente selon le cas) ;elles en donnent plutôt une probabilité.
De plus, parfois il y a un besoin de contourner le problème lié à la variabilité dans les valeurs prédictives selon la prévalence.
En gros, il est parfois souhaitable de ne pas tenir compte de la prévalence (par exemple car la maladie est très rare) pour établir l’efficacité de notre instrument (évaluer l’utilité potentielle d’un test diagnostique) ou parce qu’une VPP est trop élevé en raison de la prévalence, faussant l’interprétation.
Permet donc de trouver le gain de diagnostique réel.
Qu’est-ce qu’un LR+ et un LR-?
LR+: probabilité qu’une personne avec la maladie soit évaluée «positive» (vrai positif) divisée par la probabilité qu’une personne sans la maladie soit évaluée «positive» (faux positif)
LR+= Sensibilité/1-Spécificité
LR-: probabilité qu’une personne avec la maladie soit évaluée « négative » (faux négatif) divisée par la probabilité qu’une personne sans la maladie soit évaluée « négative»(vrai négatif)
LR- = 1-sensibilité/Spécificité
Comment doit-on interpréter des valeurs de ratios de vraisemblance?
LR+:
1-2 –> Affecte la probabilité de façon peu importante
2-5 –> Petit effet sur la probabilité, mais parfois important
5-10 –> Affecte la probabilité de façon modérée/importante
> 10 –> Effet très important et décisif sur la probabilité
LR-:
0.5-1 –> Affecte la probabilité de façon peu importante
0.2-0.5 –> Petit effet sur la probabilité, mais parfois important
0.2-0.1 –> Affecte la probabilité de façon modérée/importante
< 0.1 –> Effet très important et décisif sur la probabilité
Qu’est-ce que la sensibilité au changement?
Capacité d’une mesure à détecter un changement suite à une intervention.
Pas de consensus sur ce qui constitue une mesure «sensible au changement».
Sensibilité au changement interne: Mesure qui permet de documenter une différence statistiquement significative
Sensibilité au changement externe: Mesure qui permet de documenter une différence cliniquement significative
Quels sont les 2 effets qui interfère avec la sensibilité au changement?
Floor effect (effet plancher):
- Test est trop «difficile» ou le construit mesuré est trop rare
- Résultat: Tous les individus obtiennent un score faible
- Exemple: Échelle d’équilibre de Berg 14 jours après l’AVC
Ceiling effect (effet plafond)
- Test est trop «facile» ou la mesure ne permet pas de « capter » une amélioration
- Résultat: Tous les individus obtiennent un score élevé
- Exemple: Échelle d’équilibre de Berg après 90 jours suivant l’AVC
Malgré le fait qu’il n’y a pas de consensus sur ce qui constitue une mesure sensible au changement, que pouvons nous utiliser pour nous informer de cette sensibilité au changement?
- Le Minimal Detectable Change (MCD)
2. Le Minimal Clinically Important Difference (MCID)
Qu’est-ce que le MCD?
MCD: plus petite différence détectable par l’instrument pour considérer qu’il y a eu un changement
N’indique pas si c’est cliniquement significatif, doit plus se fier sur le MCID pour cela.
Qu’est-ce que le MCID?
Plus petite différence observable d’un score (pour un domaine d’intérêt) pour lequel un patient perçoit un effet bénéfique sur le plan clinique
Bravo! Tu es à la dernière question du powerpoint de psychométrie! Maintenant va te pratiquer à la diapo 88-89 de ce powerpoint.
:)