S5-6 : validité et fidélité Flashcards
4 grands types de validité
- Validité de conclusion statistique : A est associé à B ?
- Validité interne : A cause B ?
- Validité de construit : Ce que ça dit sur un concept théorique
- Validité externe : S’applique à d’autres personnes ? Conditions ?
- menaces à la validité de conclusion stat
Méthodes statistiques qui ne sont pas appropriés pour la question de recherche et/ou pour les données, amenant à des conclusions invalides entre la VI et la VD
* Puissance faible
* Ne pas respecter les conditions des tests statistiques
* Impuretés dans les données, telles que des mesures peu fiables, des conditions externes qui ont faussé les mesures, des échantillons hétérogènes, etc
- menaces à la validité interne
Cause-effet, nécessite:
* La cause doit précéder l’effet (précédence), e.g., est-ce que l’isolement crée la dépression ou est-ce que la dépression entraîne l’isolement ?
* La cause est liée à l’effet (covariation), les changements dans la VD se produisent selon les niveaux de notre VI
* Aucune autre explication alternative à l’effet que la cause, e.g., on a testé notre groupe contrôle le matin et le groupe expérimental l’après-midi… la temporalité ou la luminosité peuvent-elles être une explication alternative à notre effet ?
menaces à la validité interne selon qu’il y ait un groupe (6)
Within-subjects ou repeated measures
- Historicité: Événement indépendant de l’intervention entre deux temps de mesures
- Maturation: Évolution (spontanée) en absence de l’intervention
- Attrition (la mortalité expérimentale): Abandon différentiel
- Testing (niveau du participant): Mesures réactives
- Instrumentation (niveau du chercheur): Fidélité
- Régression (scores extrêmes): Régression vers la moyenne
menaces à la validité interne selon qu’il y ait plusieurs groupes
Between-subjects
- Sélection - historicité: Événement indépendant de l’intervention entre deux temps de mesures
- Sélection-maturation: Évolution (spontanée) en absence de l’intervention
- Sélection-attrition (la mortalité expérimentale): Abandon différentiel
- Sélection-testing (niveau du participant): Mesures réactives
- Sélection-instrumentation (niveau du chercheur): Fidélité
- Sélection-régression (scores extrêmes): Régression vers la moyenne
==> attribution aléatoire aux conditions !
menaces sociales à la validité interne
Dues à la communication entre condition témoin et expérimentale
* Diffusion ou imitation de traitement
* Rivalité compensatrice et démoralisation rancunière des répondants recevant des traitements moins souhaitables
- menaces à la validité de construit
Généralisabilité à la construction théorique:
* comment la construction est opérationnalisée
* généraliser uniquement à la durée mesurée
* Effet Hawthorne: faire leur mieux parce que c’est pour une étude
* Effet expérimentateur: favoriser la condition expérimentale de manière inconsciente
- menaces à la validité externe
=l’utilité
Interaction intervention et sélection
* Sous-populations
* Volontaires
* Après avoir enlevé les participant·es non-adhérent·es
Interaction intervention et contexte (setting)
* Répliquer les effets dans d’autres contextes (e.g., chez les étudiant·es de psycho mais aussi chez population tout-venant)
Interaction intervention et histoire
* Ne pas trouver les mêmes résultats dans le temps, parce que la société change
c’est quoi en ft la validité de mesure?
la mesure mesure-t-elle la construction théorique/abstraite que je voulais mesurer?
échelle de surprotection parentale prévue pour les parents n’est pas adaptée pour questionner les enfants –> ?
la validité est à situer dans le contexte de son utilisation prévue
Preuve de validité selon plusieurs niveaux de rigueur
- Validité apparente (Face validity - le plus faible)
- Validité de contenu (Content validity)
- Validité de critère (Criterion-related validity)
- Validité de construit (Construct validity)
validité apparente
Indique qu’un instrument semble tester ce qu’il est censé tester, plus faible forme de mesure de validité.
* Méthode semble plausible pour mesurer ce qui nous intéresse
* Nécessite un concept très claire (e.g., comportement facilement observable)
validité de contenu
La mesure reflète bien toutes les parties qui sont représentatives du domaine théorique et de l’univers du contenu qui nous intéresse.
Ex : un questionnaire sur la douleur qui tient également compte de l’intensité, de la durée, et de l’emplacement, aura plus de validité de contenu qu’un seul élément qui ne mesure qu’une partie (intensité) de la douleur.
Ce processus est subjectif (repose sur l’expertise du chercheur), nécessite souvent plusieurs révisions.
validité de critère
La capacité d’un test à prédire les résultats obtenus avec un critère externe. Ce critère externe est comme le standard de référence (‘golden standard’).
Validité concurrente
* notre mesure + critère externe mesurés plus au moins au même temps (e.g., version plus courte d’un outil existant + version) longue existante
* Les deux mesures doivent corréler
Validité prédictive
* Tente d’établir que notre mesure sera prédictive d’un certain score de critère dans l’avenir (e.g., instruments de dépistage)
validité de construit
La capacité d’un instrument à mesurer un concept ou un construit abstrait.
En partie basée sur la validité du contenu. On dit qu’un instrument a une bonne validité de construit quand sa mesure soutient les différentes hypothèses qu’on formule à l’égard de la VD.
Types:
* Méthodes des groupes connus
* Convergence et discrimination
* Analyse factorielle
méthodes de groupes connus ?
Quand le test peut faire la distinction entre les personnes connues pour posséder une charactéristique qui nous intéresse et celles qui ne la possèdent pas (e.g., patient / non-patient).
- S’il existe déjà une mesure qui n’est pas un concept abstrait (e.g., diagnostic clinique), on considère la comparaison avec notre instrument comme critère de validité.
- Si le concept est abstrait et qu’aucune mesure connue n’existe encore, on le considère comme faisant partie de la validité de construit
validité convergente
indique que deux mesures censées refléter le même phénomène sous-jacent donneront des résultats similaires ou seront fortement corrélées
validité discriminante
indique que deux mesures qui sont censées refléter différentes caractéristiques donneront des résultats différents ou seront faiblement corrélées
c’est quoi l’analyse factorielle?
permet de vérifier qu’un construit contient différentes dimensions sous-jacentes
Cette analyse est fréquente dans les articles, : on fait passer le questionnaire aux participants et on sait que notre échelle de mesure reflète plusieurs caractéristiques
Exemple : le bien-être peut prendre trois formes –> psychologique, émotionnel et social
Sur base de toutes les réponses, je lance une analyse factorielle afin de voir comment ils corrèlent entre eux
Types et sources de faible fidélité
Erreurs systématiques: e.g., étalonnage de la balance (+ 5kg)
Erreurs aléatoires: dues au hasard, imprévisible (e.g., fatigue, inattention, erreurs, inexactitudes mécaniques)
Sources d’erreurs:
* Testeur ou évaluateur: influence des caractéristiques personnelles, comme la motivation, la fatigue
* Instrument de mesure: problèmes mécaniques, sensibilité au bruit ou à la chaleur
* Variabilité de la caractéristique mesurée (fluctuations naturelles de la variable de réponse, par exemple fatigue, tension artérielle)
coefficient de fidélité
- Estimation sur base de la variance
- Dispersion plus importante: estimation de fiabilité inférieure
4 types de tests de fidélité
- Fidélité test-retest
- Fidélité interjuges
- Fidélité “alternate forms”
- Cohérence interne
- Fidélité test-retest (6)
- un instrument fiable obtiendra les mêmes résultats avec des administrations répétées du test
- le test est capable de mesurer une variable avec cohérence
- toutes les conditions de test doivent être aussi constantes que possible –> habituellement pour l’auto-évaluation / les mesures physique, pas lorsque les évaluateurs sont impliqués ; suppose que la variable est stable
- les intervalles entre les mesures doivent être suffisamment grands pour éviter les effets de fatigue, d’apprentissage ou de mémoire mais suffisamment proches pour éviter de véritables changements dans la variable mesurée
- effets de report (carry-over) et de test : la fidélité peut être influencée par l’effet du premier test sur le résultat du deuxième
- types de coeff : coeff de corrélation produit-moment de Pearson (données de rapport d’intervalle) ; Spearman rho (données ordinales) ; coeff intraclasse ICC (préféré! reflète la corrélation ET l’accord
solutions à l’effet de report / carry-over
- des essais préliminaires pour neutraliser cet effet et les données sont collectées lorsqu’il y a stabilité dans les premières mesures
- ne communiquez pas le score du premier test aux participants pour éviter qu’ils ne souhaitent s’améliorer au deuxième
- Fidélité interjuges
Mesurer le consensus vis-à-vis des données. Celles-ci doivent souvent être standardisées par celles et ceux qui vont les collecter / enregistrer / compiler. Nécessite souvent une période de formation pour les évaluateurs afin de normaliser les procédures, même si la variabilité entre les juges peut quand même se produire…
Fidélité intra-juge (un évaluateur)
* Stabilité des données enregistrées par un individu au cours de deux essais ou plus (lorsque les effets de
report ou de pratique ne sont pas un problème: généralement des intervalles courts)
* Aveugler les testeurs pour qu’il n’y ait pas d’effet de mémoire de première note: pas toujours faisable
Fidélité inter-juges (> 1 évaluateur)
* Meilleur lorsque tous les évaluateurs sont capables de mesurer une réponse au cours d’un seul essai (simultané et indépendant)
Calcul d’un coefficient intraclasse, ICC
- Fidélité “alternate forms”
On va administrer deux versions de la mesures considérées comme équivalentes et fiables aux participant·es. On utilise cette technique lorsque la nature du test est telle que les sujets risquent se souvenir de leurs réponses aux items, mais il faut que l’alternative soit suffisamment différente pour qu’il n’y ait pas de biais d’un test à l’autre !
On administre généralement les deux mesures dans la même session, et on test leur corrélation.
Ex : je m’intéresse aux comportements écologiques. Je demande l’intention de trier ses déchets ménagers avec un nouveau système. J’ai offert une boisson aux participants et je mesure aussi s’ils vont mettre la bouteille dans la bonne poubelle
- Cohérence interne
Renvoie à la notion d’homogénéité (internal consistency), c’est-à-dire à la mesure dans laquelle les éléments mesurent divers aspects de la même caractéristique et rien d’autre.
- Examiner la corrélation entre les éléments de l’échelle
- Souvent calculé pour les sous-échelles
- Coefficient de Cronbach alpha (affecté par le nombre d’éléments dans l’échelle)
Techniques stat pour la fidélité (ICC) et la cohérence interne (alpha de cronbach)
Fidélité: corrélation intraclasse (ICC)
* <0,50: mauvaise fidélité
* 0,50 - 0,75: fidélité modérée
* > 0,75: bonne fidélité
Cohérence interne: Alpha de Cronbach
* Mêmes normes que ICC
* Très dépendant du nombre de questions/items