Cours 7: La fiabilité et la validité des mesures Flashcards

Question

Nommez une méthode courante de bissection (cohérence interne)

Answer 1

-Une méthode courante de bissection est de choisir les items pairs vs les items impairs.

Answer 2

-Lorsque l'on se contente de calculer la corrélation entre deux «sous-scores», le coefficient obtenu estime la fidélité d'un demi-test seulement. Or, toutes choses étant égales par ailleurs, plus un test est long, plus il sera fidèle (en termes de cohérence).

Answer 3

-La formule de Spearman-Brown permet de corriger le coefficient de cohérence pour tenir compte du raccourcissement d’un test ou son facteur d'allongement

Answer 4

Fidélité par cohérence inter-items

Answer 5

-La fidélité par cohérence inter-items est une technique qui est basée sur la cohérence des réponses à toutes les observations (items) d’une mesure, considérées simultanément. -Le coefficient de fidélité est le coefficient α (alpha de Cronbach).

Answer 6

-Les sources d'erreur sont : 1-L'échantillon particulier des observations; 2-L'hétérogénéité des observations.

Answer 7

-Globalement, l'homogénéité d'une mesure réfère au degré de cohérence entre les différentes observations, i.e. à quel point chacune des observations (ou item) est une mesure de ce que la mesure, dans son ensemble, mesure effectivement. -Le résultat (global) à une mesure est d'autant interprétable que les observations qui le forment constituent un tout homogène.

Answer 8

-Mais si la caractéristique à mesurer est définitivement hétérogène (par exemple, l’intelligence), il convient alors d'élaborer plusieurs sous-tests homogènes qui mesurent chacun une et une seule des facettes à considérer.

Answer 9

-Pour certaines mesures, l'examinateur peut engendrer une certaine forme d'erreur, parce que les consignes sont peu précises par exemple dans les entrevues cliniques ou semi-structurées. Pour certaines autres mesures, le correcteur peut engendrer une certaine forme d'erreur, parce que les grilles de correction sont peu précises par exemple dans les tests de créativité ou dans les tests projectifs. Dans ces cas, la fidélité inter-correcteurs (ou examinateurs) indiquera dans quelle mesure le score obtenu à une mesure ne dépend pas de la personne qui corrige (ou administre) cette mesure.

Answer 10

Pour évaluer ce type de fidélité, il s'agit simplement de faire corriger (ou administrer) la mesure séparément par au moins deux correcteurs (ou examinateurs).

Answer 11

Le coefficient de fidélité est obtenu en calculant la corrélation entre les deux scores (ou plus) ainsi attribués à chaque examiné.

Answer 12

S’il n’y a que deux correcteurs (ou examinateurs) le coefficient de corrélation de Pearson est alors utilisé.

Answer 13

Avec plus de deux correcteurs (ou examinateurs), l’analyse la plus indiquée est le coefficient de corrélation intraclasse (CCI) dont le résultat est interprété comme un coefficient de corrélation de Pearson

Answer 14

D’autre part, si les résultats aux tests ne sont pas des scores sous une échelle continue, mais consistent dans des codages qualitatifs en catégories (ex : malade vs en santé), il faut alors utiliser l’indice Kappa

Answer 15

La méthode de Kappa mesure le degré de concordance entre les observateurs, par rapport au hasard. Avec seulement deux observateurs, il faut utiliser le K de Cohen, tandis qu’avec plus de deux observateurs il faut utiliser le K de Fleiss.

Answer 16

quelque critère externe ou construit théorique ayant un certain intérêt.

Answer 17

Ce que la mesure, mesure effectivement et avec quel degré de précision elle le mesure.

Answer 18

De façon très générale, la validité d'une mesure réfère au degré avec lequel une mesure, mesure ce qu'elle est supposée mesurer, mais plusieurs facteurs, théoriques et pratiques, justifient l'utilisation de mesures psychologiques et chacun de ceux-ci influence différemment la notion de validité.

Answer 19

-Il n'y a pas de définition absolue de la validité d'une mesure, puisque cette validité dépend du contexte d'utilisation de cette mesure, des fins pour lesquelles elle est utilisée et des questions auxquelles elle tente de répondre.

Answer 20

C'est donc dire qu'une mesure n'est jamais VALIDE EN SOI, mais c'est plutôt son UTILISATION SPÉCIFIQUE qui est valide ou invalide. De façon globale, la validité d'une mesure réfère donc à la PERTINENCES DES INFÉRENCES que l'on tire des résultats fournis par la mesure.

Answer 21

-Validation de contenu: qui porte en fait sur la pertinence et la couverture des contenus. -Validation de construit: cohérence avec la «structure théorique». -Validation critériée ou pragmatique: relation avec un critère externe.

Answer 22

La validation de contenu est une méthode qui consiste à analyser le contenu d’une mesure afin de s'assurer qu'elle est représentative en tant qu'échantillon du domaine de comportements à mesurer.

Answer 23

1- À quel point chaque observation qui forme la mesure appartient à l'univers du construit défini? 2- À quel point l'ensemble des observations représente tous les aspects de cet univers?

Answer 24

La représentativité de la mesure ne peut se juger que par rapport à la définition donnée au construit mesuré.

Answer 25

La validité apparente correspond à ce que la mesure semble mesurer, i.e. est-ce que la mesure semble valide aux yeux des examinés, du personnel administratif, des observateurs non initiés, etc. Ceci est donc différent de la question de ce que la mesure, mesure de fait.

Answer 26

On peut augmenter la validité apparente en modifiant quelque peu les observations afin qu'elles paraissent plus pertinentes aux examinés.

Answer 27

1. La détermination des utilisations prévues de la mesure 2. La définition de ce que l'on souhaite mesurer 3. La création des observations 4. L'évaluation des observations

Answer 28

Quels sont les buts de la mesure ? À quelle clientèle est-elle destinée ?

Answer 29

Habituellement, le point de départ d’une mesure est un objectif relativement vague et général qu’il faut opérationnaliser. Il faut donc déterminer soit la portée de la construction mentale (construit hypothétique) ou l’étendue du domaine mesuré (comportements).

Answer 30

Lorsqu’on a déterminé le format, le niveau de difficulté et le nombre d’observations à créer « devis de rédaction », on passe alors à la première rédaction.

Answer 31

Confirmation de la représentativité conceptuelle de la banque initiale d’observations grâce à des jugements d’experts sur la pertinence et la représentativité des observations, puis révision de la banque initiale s’il y a lieu. Mise à l’essai des observations, puis analyse qualitative des observations à partir des jugements des individus mesurés sur la clarté et la signification des observations. Enfin, sélection finale d'observations adéquates.

Answer 32

L’élaboration du plan de la structure de la mesure sera guidée soit par la théorie dans le cas de la mesure d’un construit mental ou soit par une analyse de contenu de domaine de comportements dans le cas de la mesure d’un domaine de comportements.

Answer 33

C. La création des observations

Answer 34

-La validation pragmatique ou critériée est une méthode qui s'applique à tous les cas où il existe une mesure indépendante et directe de la caractéristique que la mesure est supposée mesurer. On appelle cette mesure: critère (externe). La méthode consiste à calculer la corrélation entre le résultat à la mesure et le critère.

Answer 35

-Il est important de noter que cette méthode de validation présuppose l'existence du critère. Par conséquent, la mesure ne mesure pas un construit purement théorique, mais a plutôt pour but de prédire où se situe l'examiné par rapport à ce critère.

Answer 36

-Classiquement, on fait la distinction entre deux types de validation critériée: la validation concomitante (lorsque l'administration de la mesure et la mesure du critère sont simultanées) et la validation prédictive (lorsque l'administration de la mesure précède d'un certain intervalle de temps la mesure du critère).

Answer 37

-La méthode de validation concomitante s'avère appropriée lorsque la mesure à valider sera éventuellement utilisée à des fins de diagnostic, c’est-à-dire à la mesure d'un état actuel. Par exemple, un test de connaissances en pilotage d'avions commerciaux.

Answer 38

-La méthode de validation prédictive s'avère appropriée lorsque la mesure à valider sera éventuellement utilisée à des fins de pronostic, c’est-à-dire que la mesure servira à prédire un état futur. Par exemple, un test d'aptitudes au pilotage (utilisé avant un cours).

Answer 39

On s'en remet alors à la validation concomitante en contrastant la performance d'échantillons «pré-sélectionnés», i.e. composés d'examinés pour lesquels les données critériées sont déjà disponibles. Par exemple, en passant la mesure d'aptitudes au pilotage à un groupe de pilotes et à un groupe de non-pilotes.

Answer 40

-Performance académique -Performance à un cours spécialisé -Rendement au travail -Groupe contrasté (critère composite) -Diagnostic psychiatrique -Jugements appréciatifs -Liens avec les tests existants

Answer 41

Notes scolaires, promotion de classe, obtention d'un diplôme, niveau d'éducation atteint (chez les adultes), etc. Utilisé pour mesurer la validité des tests d'«intelligence générale», des tests d’aptitudes scolaires.

Answer 42

Appréciations par les instructeurs, achèvement vs abandon du cours, etc. Utilisés pour mesurer la validité de tests visant à mesurer des aptitudes spécifiques (aptitudes mécaniques, de pilotage, etc.).

Answer 43

Même fins que dans l'exemple précédent (i.e. performance à un cours spécialisé). La standardisation est plus difficile car il peut y avoir beaucoup de différences d'un lieu de travail à l'autre.

Answer 44

Par exemple, un test d'aptitudes musicale-> comparaison entre les élèves du conservatoire de musique et ceux des autres disciplines. -Cette méthode est souvent utilisée pour «valider» les tests de personnalité. Par exemple, Leadership -> comparaison entre les directeurs d'entreprise et les employés de bureau.

Answer 45

Le diagnostic sert de critère pour établir la validité de certains tests de personnalité qui pourraient éventuellement faciliter le travail diagnostic.

Answer 46

-Les jugements appréciatifs servent surtout à valider les tests de personnalité. -Pour certains types de «traits», les appréciations de l'entourage de l'examiné sont possiblement le meilleur critère. Par exemple, votre conjoint est en mesure de porter un jugement sur votre «niveau de libido». -C'est comme le critère précédent (i.e. «diagnostic psychiatrique»), mais ce sont les personnes de l'entourage immédiat qui agissent comme «experts».

Answer 47

-Lorsqu'on élabore un nouveau test pour remplacer un test reconnu, mais lourd à administrer, le résultat à ce dernier peut être vu comme étant un «critère» pour établir la validité du nouveau test. -On a ici un certain recoupement avec la validation de construit.

Answer 48

-La validation de construit n'est pas une méthode unique et explicite pour établir la validité d'une mesure, mais bien un ensemble de méthodes qui visent toutes le même but: établir jusqu'à quel point la mesure fournit une mesure adéquate du construit théorique qu'on prétend qu'elle mesure.

Answer 49

définition claire et explicite du construit qu'on prétend mesurer.

Answer 50

-Il est fondamental de comprendre que la validité de construit d'une mesure est ancrée dans un réseau d'explications et de justifications théoriques. -Grosso modo, on peut dire que la validité de construit s'établit d'abord en montrant la correspondance entre la théorie et certains faits qu'elle prédit. Par conséquent, le processus de validation de construit implique plus que la «qualité» de la mesure, elle implique également la «qualité» de la construction théorique sous-jacente. On peut difficilement envisager la mesure valide d'un construit théorique issu d'une théorie farfelue (p. ex. «votre habileté à devenir invisible»).

Answer 51

au calcul de plusieurs corrélations entre les scores obtenus à cette mesure et ceux fournis par un ensemble d'autres mesures.

Answer 52

Montrer la présence de corrélation entre la mesure et d'autres mesures qui sont supposées mesurer le même construit ou des construits théoriquement liés; Montrer l'absence de corrélation entre la mesure et d'autres mesures qui sont supposées mesurer des construits théoriquement indépendants (preuves négatives de validité).

Answer 53

-Certains auteurs de tests considèrent les coefficients d'homogénéité comme des indices de la validité de construit. Toutefois, les coefficients d'homogénéité sont des indices de cohérence de la mesure (qui ne sont pas équivalents à des facteurs) et, par conséquent, ils ne peuvent être considérés que comme des indices très indirects et peu informatifs de la validité de construit.

Answer 54

le fait que les scores à une mesure doivent démontrer des corrélations élevées avec d'autres variables avec lesquelles elles doivent théoriquement être reliées.

Answer 55

on doit trouver des corrélations nulles (ou faibles) avec les autres variables avec lesquelles elles ne doivent pas, en principe, être reliées.

Answer 56

Elles reposent toutes sur la démonstration des liens entre la performance à la mesure et d'autres «observations» de la caractéristique que l'on tente de mesurer. C'est pourquoi les «coefficients de validité» prennent la forme de coefficients de corrélation.

Answer 57

description détaillée du groupe

Answer 58

Ce coefficient ne peut être appliqué, en termes d'indice de validité, qu'auprès de populations comparables à l'échantillon de validation