fidelité, validité, contrôle Flashcards
fidelité (3)
précision de l’instrument peu importe ce qu’il mesure
son application entraîne toujours des résultats semblables
absence d’erreur de mesure
trois types de fidelité
- stabilité temporelle
- équivalence
- homogénéité
stabilité temporelle
Se détermine sur la base de la constance des résultats obtenus à la suite d’applications répétées de l’instrument
Habituellement, on a recours à 2 administrations de l’instrument Cette technique s’appelle fidélité testretest
quand utiliser le test-retest?
Recommandé pour des construits qui possèdent une stabilité temporelle
E.g., traits de personnalité, intelligence
Peu recommandé pour :
Des tests de type situationnel qui mesurent un état passager
E.g., émotions, humeur
Des tests qui sont influencés par la mémoire ou l’apprentissage
Équivalence
Consistance des résultats obtenus à la suite de l’utilisation soit de différents instruments visant la mesure de la même caractéristique (p. ex., 16PF formes A et B) ou soit d’un même instrument où l’observateur est une source possible d’erreurs
Si plusieurs observateurs sont impliqués, l’indice d’équivalence peut être le pourcentage d’accord interjuges (coefficient Kappa) Si ce sont des questions de tests, l’indice d’équivalence est un coefficient de corrélation entre les réponses à des échantillons de questions des deux instruments Acét
Homogénéité (ou consistance interne)
C’est le degré de consistance qu’offrent les réponses d’un individu aux questions variées d’un test
S’intéresse à la probabilité qu’un (des) item(s) mesure(nt) autre chose que ce qui est prévu
Différents outils statistiques mesurent l’homogénéité
alpha de cronbach
Une statistique fréquemment utilisée pour mesurer la consistance interne d’instruments de mesure
Interprétation de alpha de cronbach (6)
a < 0,60 → inacceptable
a entre → 0,60 et 0,65 indésirable
a entre → 0,65 et 0,70 minimalement acceptable
a entre → 0,70 et 0,80 respectable
a entre → 0,80 et 0,90 très bien
a > 0,90 → excellent
formule 20 de kuder-richardson (K-R 20)
Une statistique anciennement utilisée pour mesurer la consistance interne d’instruments de mesure où les items sont dichotomiques (e.g., oui-non)
Cronbach a peut faire le travail aussi, étant plus versatile
K-R 20 = désuet
K-R 20 = désuet
Interprétation du coéficient (étendue 0.0 1.0) similaire à Cronbach
Une statistique anciennement utilisée pour mesurer la consistance interne d’instruments de mesure où les items sont dichotomiques
Formule 20 de Kuder-Richardson (K-R 20)
Méthode moitié-moitié (split-half de Spearman-Brown)
On divise en deux le test pour évaluer la relation entre les deux moitiés
La corrélation nous dit ce que serait la fidélité si le test était N fois plus long que ses moitiés
N > 2: prédiction pour test plus long N < 2: prédiction pour test plus court
4 types de validité
- interne
- externe
- écologique
- de construit
validité interne
Est-ce que les données sont vraiment dues à ce qu’on prétend (expérience) ou à ce qu’on observe (étude)?
Alternativement, est-ce que les résultats ne dépendent pas d’autres facteurs non contrôlés?
Haut degré de validité interne = empêcher que des éléments étrangers ou variables parasites ne contaminent la mise à l’épreuve de l’hypothèse
Pensez aussi biais (cours 6)
la validité interne tient à (2)
la qualité ou à la solidité du protocole expérimental utilisé et à l’efficacité et à la rigueur des contrôles effectués
7 sources d’invalidité à considérer
- expérience vécue du participant
- la maturation
- l’opération de mesure
- la constance de l’instrument
- la régression statistique
- la sélection des participants
- la perte de participants
- Expérience vécue du participant
Événements qui surviennent pendant et entre les prises de mesures et qui ne dépendent pas de la manipulation expérimentale (e.g., divorce, perte d’emploi, nouvelle relation, etc.)
- La maturation
Les processus individuels qui se développent en fonction du passage du temps, tels le vieillissement, la croissance, l’expérience personnelle, etc.
Des modifications de cette nature se produisent souvent à l’intérieur de périodes de temps très brèves Étant donné que ce facteur joue dans toutes études, l’utilisation d’un groupe témoin provenant de la même population précisera et contrôlera les effets de la maturation
- L’opération de mesure
Le seul fait de répéter un test risque d’influencer les résultats
Les différences observées entre la première mesure et sa répétition peuvent dépendre simplement de l’opération de mesure et non du traitement expérimental (naïf vs savant) Un groupe témoin qui n’est pas exposé à la VI permettra de préciser cet effet de l’opération de mesure
- La constance de l’instrument
Il peut se produire des changements dans la calibration d’instrument de mesure ou dans la manière dont l’expérimentateur recueille ses données
E.g., l’emploi d’observateurs: ils peuvent se fatiguer, s’améliorer, ou empirer!
Le changement observé entre les mesures du pré-test et du post-test peut donc dépendre de l’instrument de mesure
- La régression statistique
Phénomène qui se manifeste surtout quand on choisit des groupes qui se situent aux extrémités d’une échelle de mesure
En faisant la sélection des participants, l’expérimentateur choisit ceux-celles qui obtiennent un score très élevé ou très bas à un moment précis, ce qui ne représente pas la position habituelle de ces individus
Lors d’évaluations subséquentes, ils auront tendance en tant que groupe à se rapprocher de la moyenne S’applique aux construits variables Les mesures stables moins susceptibles
- La sélection des participants
Déformations systématiques dans la composition comparative des groupes expérimentaux et témoins
E.g., étude sur le traitement de la peur des hauteurs. Groupe expérimental est composé de personnes qui consultent un psy. et groupe témoin qui provient de la population générale
Le fait que les participants proviennent d’une population différente peut-être suffisant pour expliquer un changement éventuel
- La perte de participants (mortalité ou attrition)
Si plusieurs participants d’un même groupe abandonnent, il peut s’en suivre des effets spécifiques qui ne dépendent aucunement de la variable expérimentale
Peut entraîner une diminution de la représentativité Pourquoi un groupe a plus d’abandons qu’un autre?
Validité externe
Se préoccupe de la possibilité de généraliser les résultats de l’étude au-delà de l’échantillon, des circonstances
9 de vos 10 amis vous disent aimer le kale… devriez-vous investir dans le kale?
4 facteurs importants à considérer validité externe
1- la réaction à la mesure
2- les effets d’interaction d’un ou des facteurs de validité interne avec VI
3- Effets spécifiques liés au déroulement de l’expérience
4- l’interférence associée à un traitement multiple
1- la réaction à la mesure
La prise de mesure au cours d’un pré-test peut contribuer à augmenter ou diminuer la sensibilité du participant à l’endroit de la variable étudiée
Les individus qui savent qu’ils sont observés vont agir différemment de ceux qui ne sont pas avertis
Le seul fait de demander d’observer ou d’enregistrer la fréquence ou la durée d’un comportement entraînera une modification de ce comportement
E.g., Programme pour cesser de fumer
Au pré-test les sujets doivent compter les cigarettes qu’ils fument ça peut les sensibiliser au fait qu’ils fument trop
2- Les effets d’interaction d’un ou des facteurs de validité interne avec VI
Se produit alors qu’un élément de validité interne co-varie avec une variable indépendante
E.g., mon ordinateur surchauffe(*), avec la conséquence que les temps de réactions à ma tâche sont surestimés plus la journée avance
Or, malheureusement, une majorité de participant-e-s du groupe contrôle sont testé-e-s en après-midi, contrairement au groupe expérimental
3- Effets spécifiques liés au déroulement de l’expérience
Parfois, les particularités de la démarche expérimentale sont telles qu’elles incitent les sujets à donner telle réponse plutôt que telle autre
E.g., un sondage sur l’anxiété liée à prendre l’avion dont une partie des répondants l’ont rempli après un écrasement d’avion médiatisé
Les résultats ainsi obtenus limitent grandement la portée des conclusions ou les rendent invalides
4- L’interférence associée à un traitement multiple
Lorsque plusieurs traitements sont présentés simultanément, il devient difficile d’évaluer le poids relatif de chacun d’eux
E.g., programme pour diminuer le bégaiement qui inclut la relaxation, l’imagerie, l’exposition, etc. Le traitement fonctionne, mais on ne sait pas à quoi l’attribuer
À moins d’avoir un plan factoriel
Validité écologique
Contexte dans lequel se déroule la recherche, y compris les tâches que les participants effectueront
Similitude du contexte matériel et du niveau psychologique avec l’environnement réel?
E.g., casino en labo - similitude au niveau du décor physique, mais pas au plan psychologique
Signification que confère le sujet à la situation dans laquelle le chercheur le place ou l’étudie
Pertinence?
Validité de construit
Est-ce que le test mesure bien le construit tel qu’il est défini par son cadre théorique de base?
Deux approches
Validité convergente Validité divergente (ou discriminante)
Validité de construit convergente
Capacité d’une mesure de produire des résultats semblables à ceux produits par d’autres mesures qui sont reliées au construit en question Consiste à corréler un test avec un critère approprié
E.g., deux questionnaires d’estime de soi
E.g., deux mesures d’anxiété (l’une par questionnaire et l’autre par entrevue ou taux de cortisol)
Validité de construit divergente
Consiste à démontrer que le test n’est pas significativement corrélé avec des critères non pertinents
E.g., l’échelle d’intelligence verbale ne corrèle pas avec l’échelle de narcissisme dans notre batterie intelligence-personnalité
But du contrôle (3)
Les conclusions sont impossibles à tirer en présence d’interprétations alternatives plausibles
Les interprétations alternatives surviennent quand des variables externes ou parasites ou confondantes peuvent avoir influencé les résultats
E.g., tester l’efficacité de comprimés anti-soif avalés avec un grand verre d’eau
Les interprétations alternatives empêchent le progrès
Un ensemble de procédures existent pour contrôler les variables parasites
Comment contrôler les variables parasites
- maintenir la variable parasite constante
- sélection et assignation aléatoire
- plans factoriels (les inclure)
- contrôles statistiques
- le + de contrôles possibles
Maintenir la variable parasite constante
Certifie qu’elle ne peut avoir causé les différences entre les groupes
E.g., groupe contrôle qui boit de l’eau mais pas de comprimé anti-soif
Peut limiter la validité externe des résultats
E.g., si on avale la pilule “à sec”?
Sélection et assignation aléatoire
L’échantillonnage aléatoire protège contre les biais d’échantillons Voir cours 7 L’assignation aléatoire « assure » que les groupes sont comparables avant toute intervention
Les variables parasites sont distribuées également à travers les différents groupes
Tout ce qui peut être randomisé devrait l’être (e.g., stimuli, ordre des tâches, expérimentateurs…)
Demande un gros échantillon
Plans factoriels
Si on ne peut les éliminer…. les inclure!
La variable parasite devient une VI additionnelle
E.g., un plan 2 (sexe) x 3 (drogue) x 3 (eau)
Contrôles statistiques
Lorsque les contrôles expérimentaux sont inexistants ou insuffisants
Scores de changement (avant-après) Analyse de la covariance Corrélations partielles
La meilleure approche pour contrôler les variables parasites?
Le plus de contrôles possible!
Contrôle total n’est pas un objectif réalisable
L’incapacité à contrôler les variables parasites est un des obstacles les plus importants en science
Dès qu’un évaluateur identifie un parasite raisonnable, la publication devient TRÈS difficile