Cours 4: Suite fidélité Flashcards
Explique l’effet de la restriction de la variance sur r.
Quand on n’a pas bcp de variance dans notre échantillon, ca va affecter notre coefficient de corrélation.
Ex: Corrélation entre le QI et la réussite scolaire => chez des enfants, coefficient de corrélation =environ 0.5/0.6. Quand même une forte corrélation entre le QI et la réussite scolaire au primaire. À l’université, si on corrèle le QI avec la moyenne des étudiants, coefficient de corrélation = environ 0.1. Illustre l’effet de la restriction sur la variance. On ne pourrait pas mettre une personne avec une déficience intellectuelle et s’attendre à ce qu’elle réussisse les examens.
Quand on est à l’université, il y a déjà eu une présélection qui a été faite. Si on faisait un test de QI chez les étudiants de la classe, ils auraient probablement environ tous le même QI (en haut de la moyenne). Le QI varie peut chez les étudiants universitaires (restriction de la variance).
Au primaire, grande variation dans les niveaux de QI (Quand on a assez de variance, ça va bien corréler avec notre variable). Quand x varie, comment y varie. Si x varie peut et que y varie peu => très petite corrélation alors que ce n’est pas nécessairement vrai.). À l’université, motivation serait un meilleur prédicteur de la réussite scolaire que le QI.
Restriction de la variance affecte énormément les coefficients de corrélation.
Ex: Pour choisir une voiture, prix = critère #1. Pour deux voitures qui ont a peu près les mêmes caractéristiques, sauf le prix => ce qui va nous amener à choisir laquelle = le prix (variance dans le prix). Deux voitures qui ont les mêmes caractéristiques et qui ont exactement le même prix, mais deux marques différentes (ex: Honda et Mazda). Vendeur de Honda sympathique et vendeur de Mazda détestable. Variance attribuée à l’aspect sympathique du vendeur est bcp plus faible quand variance est aussi présente dans le prix.
Restriction de la variance = c’est quand un groupe est homogène. On veut donc un groupe hétérogène.
Possible d’utiliser des formules de correction quand il y a restriction de la variance. Mieux de prendre un échantillon diversifié plutôt que d’utiliser les formules de correction.
Vaut la peine d’avoir une variance qui n’a pas trop de restriction.
Restriction de la variance = coefficient de corrélation faible = Puissance faible
- Voir figure 4.7 p. 14 du pwr point*
Quelles sont les principales sources affectant la fidélité?
- Tout ce qui entraine une variation aléatoire des résultats d’un test nuit à la fidélité de celui-ci
Correction du test (Correction du test: Est-ce que deux correcteurs différents arrivent à la même conclusion.)
Contenu du test (Contenu du test = plus rare qu’on s’adresse à ça. Ex: Forme A et B d’un examen. Forme A est supposée être équivalente à la forme B. Deux examens différents, mais qui sont équivalents. Supposés être équivalents, mais le sont-ils vraiment? Variations dans l’échantillonnage des items d’un examen produisent des erreurs aléatoires)
Conditions d’administration du test (Conditions d’administration: Habituellement, pas supposé de bcp changer. Si test chronométré de 30 min. Est-ce que je donne 2 min de plus à certains participants ou non? => va affecter la fidélité.)
Conditions personnelles (Conditions personnelles = la plus courante. => État physique ou psychologique du participant. )
*Certaines sources d’erreur de mesure entrainent une variation systématique des résultats, sans que celles-ci n’affectent la fidélité du test. Par exemple, le fait que les gens aient des réticences à dévoiler les actes délictueux qu’ils ont pu commettre aura comme effet de diminuer systématiquement leurs résultats à une mesure de délinquance. => peut avoir influence sur la validité du test, mais pas sur sa fidélité.
Seules les sources d’erreur aléatoires (ou non systématiques) influent sur la fidélité de la mesure.
Explique la théorie du score vrai
Termes de base:
- Vrai score (Ce qu’on veut savoir) T (V)
- Score observé (le résultat) O
- Erreur (bruit) E
Relations dans l’équation:
T = O ± E
O = T ± E
Le score observé est celui qu’obtient une personne à un test. On peut le voir comme le score brut. Diverses sources peuvent exercer une influence positive ou négative sur ce score et en affecter la fidélité. Par ex: le score observé peut être un peu plus élevé parce que le candidat a donné quelques bonnes réponses au hasard.
Vrai score = score s’il n’ y avait aucun facteur qui viendrait le contaminé (en réalité on n’a jamais le vrai score). Score si toutes les sources d’erreur qui sont associées à un problème de fidélité étaient supprimées du score observé.
La moyenne de tous les scores observés devrait correspondre au score vrai.
Le score observé est probablement proche du vrai score qu’on ne connait jamais parfaitement. La différence entre les différentes passations de la personne à l’examen (entre les différents scores observés) = de l’erreur
Erreur de mesure = différence entre le score observé et le score vrai. Elle peut être positive ou négative.
+/- erreur = erreur qui augmente ou diminue le score.
Vrai score = tjrs un estimé à partir du score observé.
En regardant la figure 4.8 de la page 17 du power point, explique la différence entre le groupe A et le groupe B.
Dans groupe B => variance qui est vrai = bcp plus grande que dans groupe A. Variance observée est bcp plus proche de la variance réelle dans groupe B.
En regardant les graphiques de la page 18 du power point, explique les distributions des scores observés autour des scores vrais.
A: Majorité des scores observés sont très près du vrai score.
En A, le test est très fidèle: les scores observés sont concentrés autour du score vrai.
Le test en B n’est cependant pas très fidèle, puisque la distribution des scores observés est très étendue de par et d’autre du score vrai.
On présume habituellement que les scores observés sont normalement distribués autour du score vrai.
On ne connait jamais le score vrai d’une personne.
Explique la méthode test-retest pour la fidélité.
Méthode qu’on voit le plus souvent = test-retest.
- Fonctionnement : ce coefficient de fidélité s’obtient par l’administration du même test aux mêmes personnes à deux occasions.
Corrélation entre les scores obtenus la première et la seconde fois.
- Couverture: Condition personnelle sujets (Physique, Mentale) (Est-ce que le score des participants change en fonction de leur état physique ou mental. )
- Limites:
Difficilement applicable (Difficilement applicable, car difficile de trouver des participants qui veulent repasser deux fois le questionnaire.)
Effet du premier test sur la réponse: La personne peut se souvenir de certaines réponses. => cela aurait pour effet de faire gonfler le coefficient de fidélité.
Délai discutable
Exemple: Repasser un questionnaire 2 à 4 semaines plus tard. (On présume qu’après 2 semaines, la personne ne devrait plus se souvenir de ses réponses, mais ne devrait pas avoir changé au niveau de trait. Après 4 semaines = possible que le trait ait changé).
Explique la méthode inter-juges pour la fidélité.
Fonctionnement:
- Système des entrevues : Quand on a des entrevues où on observe les caractéristiques d’une personne. Coefficient d’accord => on regarde si la caractéristique évaluée par l’observateur 1 est repérée aussi par l’observateur 2. Observer des comportements précis et non pas des caractéristiques générales. Ex: Qu’est-ce que jouer agressivement (dans un sport)? Jouer agressivement = pas nécessairement la même chose pour tous les observateurs. Beaucoup mieux d’avoir une grille comportementale que de faire des affirmations subjectives. Donc cibler plus des comportements que des traits de personnalité. (dans les entrevues)
Pour examens : est-ce que deux examens corrigés par deux correcteurs différents obtiennent la même note? => appliquer un accord inter-juge. Corrélation entre les scores attribués par le premier et le second évaluateur.
Plus les juges sont d’accord entre eux sur ce qu’ils observent, plus la mesure est fidèle.
Les évaluateurs doivent impérativement travailler séparément afin de ne pas s’influencer mutuellement => gonflerait le coefficient de fidélité.
Couverture :
- Correction du test
Si 5 juges disent la même conclusion, est-ce que cette conclusion est nécessairement vrai ? => Non.
Explique la méthode des versions parallèles/forme parallèle pour la fidélité.
Fonctionnement: Examen forme A vs forme B. Aller chercher deux formes qui sont différentes et qui seraient équivalentes. Très rare qu’on voit deux versions d’un test.
Deux versions d’un test équivalentes ou très semblable. Administrer les deux versions d’un test aux mêmes candidats.
Corrélation entre les scores obtenus aux deux versions du test.
On peut administrer les versions parallèles d’un test immédiatement l’une à la suite de l’autre si elles sont relativement courtes et peu exigeantes. Sinon, un intervalle semblable à celui que l’on utilise pour la méthode test-retest - allant de quelques jours à quelques semaines - conviendra.
Couverture : Lorsque les deux versions sont administrés à la suite, la méthode n’évalue que la source d’erreur de mesure attribuable à l’échantillon de contenu. Pour les tests plus longs, la méthode évalue la source d’erreur de mesure attribuable au contenu et, comme pour la fidélité test-retest, aux fluctuations de la condition physique et mentale des candidats et aux conditions d’administration du test.
Très peu répandu
Compare l’utilisation de la méthode de la cohérence interne par rapport aux autres méthodes et indique qu’elle est la méthode de cohérence interne la plus utilisée.
Cohérence interne = Bcp plus utilisé
Coefficient Alpha.
Explique le coefficient Alpha (alpha de Cronbach)
formules 4-16, 4-17
- Chaque item est une version réduite du test
- Est-ce que l’item est cohérent (corrélé) avec le reste du test ?
- Quelques exemples
Utilisation
- Nombre d’items : La fidélité s’accroit avec le nombre d’items.
- intercorrelations: L’augmentation de la corrélation moyenne interitems correspond à celle de la fidélité.
En présence d’un nombre réduit d’items, la fidélité est très faible lorsque les corrélations interitems le sont.
En présence d’un grand nombre d’items, la fidélité est respectable, même lorsque les corrélations interitems sont relativement faibles
Plus l’alpha est élevé, mieux c’est. Si nos items sont très fortement corrélés entre eux et qu’En plus on a bcp d’items => on va avoir un alpha de cronbach élevé.
Est-ce que mon répondant répond de façon consistante?
Ex: Demander plusieurs fois une même question pour être sur de la fidélité de ma mesure => surtout quand décision à la suite du test est importante. Ex: Envoyer quelqu’un de suicidaire à l’hôpital psychiatrique.
Alpha de cronbach dépend de la corrélation entre les items et du nombre d’items. Cohérence interne de la mesure va augmenter si plusieurs questions qui mesurent la même info.
Alpha de cronbach élevé = cohérence interne élevé. Alpha de cronbach mesure la cohérence interne. Jusqu’à quel point notre mesure est consistante.
L’alpha indique dans quelle mesure les items du test mesurent le ou les mêmes construits ou traits. On le décrit parfois comme une mesure de l’homogénéité des items, selon laquelle les items mesurent la même chose.
Donc, pour obtenir une grande fidélité par cohérence interne, il faut utiliser des items qui mesurent un trait bien défini.
Alpha va de 0 à 1.
Quand on enlève un item qui affecte négativement notre fidélité/notre cohérence interne. Oui peut être bien de l’enlever, mais est-ce que je mesure quand même bien l’ensemble de mon construit en retirant l’item?
Alpha de cronbach dépend du coefficient de corrélation.
Quelle source d’erreur de mesure est mesurée par l’alpha de cronbach?
L’alpha de cronbach désigne celle qui est attribuable à l’échantillonnage du contenu. Il ne mesure pas la source d’erreur attribuable aux fluctuations survenant dans la façon d’administrer le test ou de le corriger ou les conditions personnelles.
Pour les mesures de cohérence interne ne conviennent pas aux tests chronométrés?
Dans la mesure où la vitesse influe sur les résultats, la mesure de la cohérence interne produit une estimation gonflée de la fidélité.
Lorsque la vitesse est un facteur déterminant du score, il vaut mieux recourir à une autre méthode pour vérifier la fidélité du test.
Explique l’erreur type de mesure.
Erreur type de mesure = écart-type x racine de 1-r (r = coefficient de fidélité).
Avec une corrélation parfaite, le vrai score et le score observé sont identique (mais en pratique n’arrive jamais), donc il n’y a pas d’erreur de mesure (ETM = 0)
15 x racine(1-0.9) => 15 x 0.31 = 4.65 => 1.96 x 4.65 = 9,11
Si valeur de 100, intervalle de confiance entre 109,11 et 90,89
L’ETM est l’écart type d’une distribution présumée normale.
L’ETM devrait être transmise tant en scores bruts ou en unités de l’échelle originale qu’en scores transformés recommandés pour l’interprétation du test.
Quels sont les trois sortes d’erreurs types?
Erreur type de mesure: Attribuable à un manque de fidélité. Figure 4.8 page 85
Si coefficient de fidélité est très élevé, probablement que mon score observé est très près du score vrai
ETM : Y n’est pas présent. On est avec seulement une seule variable (je fais passer un test et le refait passer deux semaines plus tard)
Erreur type de la moyenne: Prendre plusieurs échantillons (statistique inférentielle)
Se résous par augmenter le nombre de participants ou augmenter le nombre d’échantillons. Statistique inférentielle = je généralise de mon échantillon à la population. Tomber par hasard sur des échantillons atypiques et tomber sur une grande différence alors qu’en réalité si j’avais eu un échantillon différent, j’aurais eu une conclusion différente = erreur type de la moyenne.
Erreur type d’estimation: Erreur de prédiction de Y par X (validité). Page 77
Erreur type d’estimation = quand j’essaye de prédire y à partir de x. Y=a+b(x)+ e. (On a deux variables)
Jusqu’à quel point le coefficient de fidélité doit-il être élevé?
Dépend du but et des sources
Barème :
- Décisions individuelles importantes : .95 objectif (ex: certification professionnelle, identification d’une personne comme présentant un handicap intellectuel)
- Combiné à d’autres infos : .80 min (d’autres informations doivent s’ajouter au score du test)
- Recherche: .60 min (0.60 = pas extraordinaire comme alpha de cronbach, mais passable. Seulement utilisé en recherche)
Quand notre alpha de cronbach augmente, notre test devient de plus en plus redondant (pas nécessaire d’être autant redondant pour quelque chose de moins important, mais peut être important pour des décisions qui ont un plus grand impact)
Attention
- La fidélité est toujours importante (on ne peut utiliser une information qui n’est pas fidèle ou dont on ignore la fidélité)
- Les tests courts ne sont pas une excuse pour justifier une faible fidélité (tests courts = généralement peu fidèles). Un test dont le taux de fidélité est de 0,60 est un test dont le taux de fidélité est de 0,60, ce qui n’est pas très bon, quelle que soit sa taille.
- Le seuil de signification n’est pas suffisant
Si la fidélité d’un test est importante, sa validité l’est encore plus.