S5-6 : validité et fidélité Flashcards by Selma Tajmout

4 grands types de validité

Validité de conclusion statistique : A est associé à B ?
Validité interne : A cause B ?
Validité de construit : Ce que ça dit sur un concept théorique
Validité externe : S’applique à d’autres personnes ? Conditions ?

How well did you know this?

Not at all

Perfectly

menaces à la validité de conclusion stat

Méthodes statistiques qui ne sont pas appropriés pour la question de recherche et/ou pour les données, amenant à des conclusions invalides entre la VI et la VD
* Puissance faible
* Ne pas respecter les conditions des tests statistiques
* Impuretés dans les données, telles que des mesures peu fiables, des conditions externes qui ont faussé les mesures, des échantillons hétérogènes, etc

How well did you know this?

Not at all

Perfectly

menaces à la validité interne

Cause-effet, nécessite:
* La cause doit précéder l’effet (précédence), e.g., est-ce que l’isolement crée la dépression ou est-ce que la dépression entraîne l’isolement ?
* La cause est liée à l’effet (covariation), les changements dans la VD se produisent selon les niveaux de notre VI
* Aucune autre explication alternative à l’effet que la cause, e.g., on a testé notre groupe contrôle le matin et le groupe expérimental l’après-midi… la temporalité ou la luminosité peuvent-elles être une explication alternative à notre effet ?

How well did you know this?

Not at all

Perfectly

menaces à la validité interne selon qu’il y ait un groupe (6)

Within-subjects ou repeated measures

Historicité: Événement indépendant de l’intervention entre deux temps de mesures
Maturation: Évolution (spontanée) en absence de l’intervention
Attrition (la mortalité expérimentale): Abandon différentiel
Testing (niveau du participant): Mesures réactives
Instrumentation (niveau du chercheur): Fidélité
Régression (scores extrêmes): Régression vers la moyenne

How well did you know this?

Not at all

Perfectly

menaces à la validité interne selon qu’il y ait plusieurs groupes

Between-subjects

Sélection - historicité: Événement indépendant de l’intervention entre deux temps de mesures
Sélection-maturation: Évolution (spontanée) en absence de l’intervention
Sélection-attrition (la mortalité expérimentale): Abandon différentiel
Sélection-testing (niveau du participant): Mesures réactives
Sélection-instrumentation (niveau du chercheur): Fidélité
Sélection-régression (scores extrêmes): Régression vers la moyenne

==> attribution aléatoire aux conditions !

How well did you know this?

Not at all

Perfectly

menaces sociales à la validité interne

Dues à la communication entre condition témoin et expérimentale
* Diffusion ou imitation de traitement
* Rivalité compensatrice et démoralisation rancunière des répondants recevant des traitements moins souhaitables

How well did you know this?

Not at all

Perfectly

menaces à la validité de construit

Généralisabilité à la construction théorique:
* comment la construction est opérationnalisée
* généraliser uniquement à la durée mesurée
* Effet Hawthorne: faire leur mieux parce que c’est pour une étude
* Effet expérimentateur: favoriser la condition expérimentale de manière inconsciente

How well did you know this?

Not at all

Perfectly

menaces à la validité externe

=l’utilité

Interaction intervention et sélection
* Sous-populations
* Volontaires
* Après avoir enlevé les participant·es non-adhérent·es

Interaction intervention et contexte (setting)
* Répliquer les effets dans d’autres contextes (e.g., chez les étudiant·es de psycho mais aussi chez population tout-venant)

Interaction intervention et histoire
* Ne pas trouver les mêmes résultats dans le temps, parce que la société change

How well did you know this?

Not at all

Perfectly

c’est quoi en ft la validité de mesure?

la mesure mesure-t-elle la construction théorique/abstraite que je voulais mesurer?

How well did you know this?

Not at all

Perfectly

échelle de surprotection parentale prévue pour les parents n’est pas adaptée pour questionner les enfants –> ?

la validité est à situer dans le contexte de son utilisation prévue

How well did you know this?

Not at all

Perfectly

Preuve de validité selon plusieurs niveaux de rigueur

Validité apparente (Face validity - le plus faible)
Validité de contenu (Content validity)
Validité de critère (Criterion-related validity)
Validité de construit (Construct validity)

How well did you know this?

Not at all

Perfectly

validité apparente

Indique qu’un instrument semble tester ce qu’il est censé tester, plus faible forme de mesure de validité.
* Méthode semble plausible pour mesurer ce qui nous intéresse
* Nécessite un concept très claire (e.g., comportement facilement observable)

How well did you know this?

Not at all

Perfectly

validité de contenu

La mesure reflète bien toutes les parties qui sont représentatives du domaine théorique et de l’univers du contenu qui nous intéresse.

Ex : un questionnaire sur la douleur qui tient également compte de l’intensité, de la durée, et de l’emplacement, aura plus de validité de contenu qu’un seul élément qui ne mesure qu’une partie (intensité) de la douleur.

Ce processus est subjectif (repose sur l’expertise du chercheur), nécessite souvent plusieurs révisions.

How well did you know this?

Not at all

Perfectly

validité de critère

La capacité d’un test à prédire les résultats obtenus avec un critère externe. Ce critère externe est comme le standard de référence (‘golden standard’).

Validité concurrente
* notre mesure + critère externe mesurés plus au moins au même temps (e.g., version plus courte d’un outil existant + version) longue existante
* Les deux mesures doivent corréler

Validité prédictive
* Tente d’établir que notre mesure sera prédictive d’un certain score de critère dans l’avenir (e.g., instruments de dépistage)

How well did you know this?

Not at all

Perfectly

validité de construit

La capacité d’un instrument à mesurer un concept ou un construit abstrait.

En partie basée sur la validité du contenu. On dit qu’un instrument a une bonne validité de construit quand sa mesure soutient les différentes hypothèses qu’on formule à l’égard de la VD.

Types:
* Méthodes des groupes connus
* Convergence et discrimination
* Analyse factorielle

How well did you know this?

Not at all

Perfectly

méthodes de groupes connus ?

Quand le test peut faire la distinction entre les personnes connues pour posséder une charactéristique qui nous intéresse et celles qui ne la possèdent pas (e.g., patient / non-patient).

S’il existe déjà une mesure qui n’est pas un concept abstrait (e.g., diagnostic clinique), on considère la comparaison avec notre instrument comme critère de validité.
Si le concept est abstrait et qu’aucune mesure connue n’existe encore, on le considère comme faisant partie de la validité de construit

validité convergente

indique que deux mesures censées refléter le même phénomène sous-jacent donneront des résultats similaires ou seront fortement corrélées

validité discriminante

indique que deux mesures qui sont censées refléter différentes caractéristiques donneront des résultats différents ou seront faiblement corrélées

c’est quoi l’analyse factorielle?

permet de vérifier qu’un construit contient différentes dimensions sous-jacentes

Cette analyse est fréquente dans les articles, : on fait passer le questionnaire aux participants et on sait que notre échelle de mesure reflète plusieurs caractéristiques

Exemple : le bien-être peut prendre trois formes –> psychologique, émotionnel et social

Sur base de toutes les réponses, je lance une analyse factorielle afin de voir comment ils corrèlent entre eux

Types et sources de faible fidélité

Erreurs systématiques: e.g., étalonnage de la balance (+ 5kg)

Erreurs aléatoires: dues au hasard, imprévisible (e.g., fatigue, inattention, erreurs, inexactitudes mécaniques)

Sources d’erreurs:
* Testeur ou évaluateur: influence des caractéristiques personnelles, comme la motivation, la fatigue
* Instrument de mesure: problèmes mécaniques, sensibilité au bruit ou à la chaleur
* Variabilité de la caractéristique mesurée (fluctuations naturelles de la variable de réponse, par exemple fatigue, tension artérielle)

coefficient de fidélité

Estimation sur base de la variance
Dispersion plus importante: estimation de fiabilité inférieure

4 types de tests de fidélité

Fidélité test-retest
Fidélité interjuges
Fidélité “alternate forms”
Cohérence interne

Fidélité test-retest (6)

un instrument fiable obtiendra les mêmes résultats avec des administrations répétées du test
le test est capable de mesurer une variable avec cohérence
toutes les conditions de test doivent être aussi constantes que possible –> habituellement pour l’auto-évaluation / les mesures physique, pas lorsque les évaluateurs sont impliqués ; suppose que la variable est stable
les intervalles entre les mesures doivent être suffisamment grands pour éviter les effets de fatigue, d’apprentissage ou de mémoire mais suffisamment proches pour éviter de véritables changements dans la variable mesurée
effets de report (carry-over) et de test : la fidélité peut être influencée par l’effet du premier test sur le résultat du deuxième
types de coeff : coeff de corrélation produit-moment de Pearson (données de rapport d’intervalle) ; Spearman rho (données ordinales) ; coeff intraclasse ICC (préféré! reflète la corrélation ET l’accord

solutions à l’effet de report / carry-over

des essais préliminaires pour neutraliser cet effet et les données sont collectées lorsqu’il y a stabilité dans les premières mesures
ne communiquez pas le score du premier test aux participants pour éviter qu’ils ne souhaitent s’améliorer au deuxième

2. Fidélité interjuges

Mesurer le consensus vis-à-vis des données. Celles-ci doivent souvent être standardisées par celles et ceux qui vont les collecter / enregistrer / compiler. Nécessite souvent une période de formation pour les évaluateurs afin de normaliser les procédures, même si la variabilité entre les juges peut quand même se produire… Fidélité intra-juge (un évaluateur) * Stabilité des données enregistrées par un individu au cours de deux essais ou plus (lorsque les effets de report ou de pratique ne sont pas un problème: généralement des intervalles courts) * Aveugler les testeurs pour qu'il n'y ait pas d'effet de mémoire de première note: pas toujours faisable Fidélité inter-juges (> 1 évaluateur) * Meilleur lorsque tous les évaluateurs sont capables de mesurer une réponse au cours d'un seul essai (simultané et indépendant) Calcul d’un coefficient intraclasse, ICC

3. Fidélité "alternate forms"

On va administrer deux versions de la mesures considérées comme équivalentes et fiables aux participant·es. On utilise cette technique lorsque la nature du test est telle que les sujets risquent se souvenir de leurs réponses aux items, mais il faut que l’alternative soit suffisamment différente pour qu'il n'y ait pas de biais d'un test à l'autre ! On administre généralement les deux mesures dans la même session, et on test leur corrélation. Ex : je m’intéresse aux comportements écologiques. Je demande l’intention de trier ses déchets ménagers avec un nouveau système. J’ai offert une boisson aux participants et je mesure aussi s’ils vont mettre la bouteille dans la bonne poubelle

4. Cohérence interne

Renvoie à la notion d’homogénéité (internal consistency), c’est-à-dire à la mesure dans laquelle les éléments mesurent divers aspects de la même caractéristique et rien d'autre. * Examiner la corrélation entre les éléments de l’échelle * Souvent calculé pour les sous-échelles * Coefficient de Cronbach alpha (affecté par le nombre d'éléments dans l'échelle)

Techniques stat pour la fidélité (ICC) et la cohérence interne (alpha de cronbach)

Fidélité: corrélation intraclasse (ICC) * <0,50: mauvaise fidélité * 0,50 - 0,75: fidélité modérée * > 0,75: bonne fidélité Cohérence interne: Alpha de Cronbach * Mêmes normes que ICC * Très dépendant du nombre de questions/items