Cours 4 Flashcards
Fidélité
Constance ou exactitude de la mesure d’un test
Validité
Capacité d’un test à mesurer ce qu’il est censé mesurer
Changement réel du trait mesuré VS. changement temporaire
différence parce que le trait a changé – différence temporaire dû aux circonstances personnelles
Erreurs de mesure systématiques VS. erreurs de mesure non systématiques
erreur de la même magnitude toujours présente – erreur imprévisible due au hasard
Distribution bivariée
permet de représenter la relation existant entre deux variables
appel aussi : « diagramme de dispersion » ou « nuage de points ».
Coefficient de corrélation
résumé numérique de la relation entre deux variables
Comment la valeur de r peut varier
La valeur de « r » peut varier de -1 à +1.
* Un r de -1 = corrélation négative parfaite
* Un r de +1 = corrélation positive parfaite
- Un r de 0 = absence de corrélation
Quel est le coefficient le plus utilisé ?
Le coefficient le plus utilisé est la corrélation de Pearson.
Droite de régression (prédiction) / regression line
Quand une corrélation (r) est établie entre deux variables (X et Y), il est possible de prédire, à partir de cette relation, la valeur de Y d’après ce que l’on connaît de X
Y’=bX +a
Y’ = valeur Y à prédire
bX = pente de la droite de régression (indique comment change Y, à partir de X)
a = point d’intersection sur l’axe (valeur de Y, quand X a une valeur de 0 )
Y =r S (X−X)+Y
r xy = corrélation entre x et y
s y = écart-type de x
s x = écart-type de y
x = score dans le test x
y = score dans le test y
Qu’est-ce que permet de faire la droite de régression ?
La droite de régression permet de prédire Y, à partir des données de X.
Erreur type d’estimation
- Les scores Y réels ne tombent pas tous exactement sur la droite d’estimation.
- Il y a une différence entre les scores Y prédits, et les scores Y réels : il y a une erreur d’estimation.
Formule erreur type estimation
SDy = écart-type de la variable y prédite
r xy = corrélation entre les variables
X (variable connue) et Y (variable prédite)
Facteurs influant les coefficients de corrélation (4)
linéarité
hétéroscédasticité
position relative
hétérogénéité du groupe
La linéarité (linearity) :
La corrélation de Pearson est seulement utile pour des relations linéaires.
Elle sous-estime les relations non-linéaires (curvilinéaires).
L’hétéroscédasticité
Les Y réels sont présumés d’être distribués normalement autour des scores Y prédits. Il est supposé que le degré de dispersion (de l’erreur de mesure) soit le même pour tous les points.
o Homoscédasticité = dispersion égale.
o Hétéroscédasticité = dispersion inégale
La position relative - non absolue -
- Une corrélation n’a pas besoin que les 2 variables corrélées aient les mêmes scores (score absolu)
- Il peut y avoir une corrélation élevée entre 2 variables qui ont des moyennes très différentes
L’hétérogénéité du groupe
La variabilité d’un groupe (dispersion des scores) peut avoir un effet sur le coefficient de corrélation.
o Hétérogénéité (différence) VS. homogénéité (pareil)
o Un groupe très hétérogène produit une corrélation gonflée.
o Un groupe très homogène produit une corrélation réduite
Type de correction de test
Les divergences d’opinions des évaluateurs peuvent entraîner des variations aléatoires dans le résultat du test.
Plus l’évaluation fait appel au jugement (subjectif) de l’évaluateur, plus elle risque d’avoir des erreurs
Contenu du test
Les variations dans la sélection d’items d’un test peuvent entraîner des erreurs aléatoires dans les résultats.
Un même étudiant (même niveau de connaissances) peut avoir un résultat différent selon la version de l’examen répondu.
Conditions d’administration du test
L’administration d’un test devrait suivre une procédure standardisée (consignes, limite de temps, espace physique, etc.)
Des variations dans les conditions d’administration peuvent influencer les résultats d’un test.
Circonstances personnelles
Un changement temporaire dans la condition physique ou mentale de la personne peut avoir une influence aléatoire sur les résultats d’un test.
Cadre conceptuel : la théorie du score vrai
Plupart des méthodes pour évaluer la fidélité sont fondés sur la théorie classique des tests
Score observé
score qu’une personne obtient dans le test
Score vrai
score réel de la personne, score qu’elle obtiendrait s’il était possible de mesurer de façon parfaite (sans erreur)
Erreur de mesure
différence entre le score observé et le score vrai, somme de toutes les erreurs aléatoires
La fidélité (r) pourrait être définie de la façon suivante :
(𝜎𝜎𝑇𝑇2 = variance du score vrai)
(𝜎𝜎𝑇𝑇2 = variance du score observé)
Le score vrai peut également être conceptualisé comme :
Le score moyen obtenu lors d’administrations successives (théoriquement illimitées) du test à différentes heures et conditions différentes.
Si on pouvait faire cela, l’évaluation serait « parfaite » : toute source d’erreur aléatoire serait annulée.
* Mais, en réalité on ne connaît jamais le score vrai (il n’existe pas une mesure parfaite libre d’erreur).
* On connaît seulement le score observé.
* Les diverses méthodes pour évaluer la fidélité visent à estimer l’écart entre le score observé et le score vrai. Autrement dit, ils essaient d’estimer l’erreur de la mesure.
Distribution hypothétique des scores observés autour des scores vrais
Le score vrai est au milieu.
Les scores observés sont normalement distribués autour du score vrai.
La différence entre un score observé et le score vrai correspond à l’erreur de mesure
Fidélité test-retest (test-retest reliability)
Administration du même test aux mêmes personnes à 2 occasions.
Le coefficient de fidélité est la corrélation entre les scores obtenus la 1re et la 2e fois.
Période entre les tests : de quelques jours à quelques semaines.
Forces :
- Évaluation de la stabilité temporelle du questionnaire
- Permet d’évaluer l’influence des variations liées aux conditions d’administration du test et aux circonstances personnelles.
Faiblesses :
Ne tient pas en compte les erreurs aléatoires liées aux variations de contenu (tests de rendement).
o Parfois difficile de faire répondre au test une 2e fois.
o Un probable « effet » du 1er test sur le 2e.
Fidélité inter-juges (inter-scorer reliability)
Le même test est évalué de façon indépendante pour 2 ou plus évaluateurs.
Le coefficient de fidélité est la corrélation entre les scores du 1er et 2e évaluateur.
S’il y a plus de deux évaluateurs, on peut utiliser le coefficient de corrélation intraclasse.
Forces :
Permet d’évaluer les variations aléatoires attribuables aux évaluateurs.
o Particulièrement important quand l’évaluation fait appel au jugement (parfois subjectif) des évaluateurs
Faiblesses :
Les évaluateurs doivent travailler de façon indépendante, afin de pas s’influencer mutuellement.
o Relève seulement les erreurs attribuables aux évaluateurs (et non aux autres sources d’erreur).
Fidélité par versions parallèles (alternate form reliability)
Administration de 2 versions d’un test au même groupe de personnes.
Les 2 versions doivent être équivalentes ou très semblables (nombre items, limite de temps, etc.)
Le coefficient de fidélité est la corrélation entre les scores obtenus aux 2 versions du test.
Forces
Permet d’évaluer la source d’erreur de mesure attribuable au contenu du test.
o Peut également évaluer l’influence des variations liées aux conditions d’administration et aux circonstances personnelles.
Faiblesses
Peu utilisé, bcp de travail. peu de tests sont offerts en plus d’une version
Applicable surtout aux tests de rendement ou d’aptitudes, et quand ils sont destinés à être répondus plus d’une fois.
Fidélité de cohérence interne (internal consistency reliability)
3 composantes
Coefficient de fidélité par bissection
Formules de Kuder-Richardson
Coefficient d’Alpha de Cronbach
Coefficient de fidélité par bissection (split-half realiability) :
Administration d’un seul test → division du test en 2 moitiés → corrélation entre les moitiés.
Fidélité pair-impair (division du test en items pairs et impairs).
La corrélation donne la fidélité de seulement la moitié du test, il est donc nécessaire de faire une correction à la corrélation entre les 2 moitiés (correction de Spearman-Brown)
Formules de Kuder-Richardson (Kuder-Richardson :
Formule KR-20 → permet d’obtenir la corrélation
moyenne pour toutes les bissections possibles du test.
Formule KR-21 → permet d’estimer la fidélité lorsqu’on connaît seulement la moyenne et l’écart- type.
Les formules s’appliquent seulement à des items répondus sur une échelle dichotomique.
Elles ne sont pas très utilisées actuellement (démodées).
Coefficient d’Alpha de Cronbach (Cronbach’s Alpha)
L’Alpha (α) indique dans quelle mesure les items mesurent le même construit du test.
C’est une mesure de l’homogénéité des items : degré dans lequel les items mesurent la même chose.
Il a une valeur de 0 à 1 (plus près du 1 → plus de cohérence interne).
C’est le coefficient de cohérence interne le plus utilisé.
Alpha de Cronbach
o La fidélité (α) augmente avec le nombre d’items.
o Une augmentation de la corrélation inter-items (r ) correspond à une augmentation de la fidélité (α).
Avec un petit nombre d’items :
- La fidélité (α) est faible quand la corrélation inter- item (r ) est faible.
- La fidélité (α) est forte quand la corrélation inter-item (r ) est forte.
Avec un grand nombre d’items :
La fidélité (α) est bonne, indépendamment de si la corrélation inter-item (rij) est forte ou non.
Fidélité cohérence interne de l’alpha de Cronbach
La valeur de l’alpha permet d’évaluer la source d’erreur de mesure attribuable à la sélection/contenu des items.
Il ne mesure pas d’autres sources d’erreur, comme l’administration du test ou la présence de circonstances personnelles.
Erreur type de mesure
Écart-type d’un nombre théorique infini de scores obtenus pour mesurer le score vrai d’une personne.
Si la fidélité du test était parfaite, l’erreur type de mesure serait 0 (sans erreur de mesure).
Intervalle de confiance
Zone autour du score observé, où la présence du score vrai est très probable. Calculée à partir de l’erreur type de mesure.
P. ex. pour un score brut de 25 (score observé), il pourrait y avoir une intervalle de confiance de 20-30 (très probable que le score vrai se situe entre 20 et 30).
Lorsqu’on dit qu’il y a une intervalle de confiance de 95%, cela veut dire qu’il y a 95% de probabilité que le score vrai se situe dans l’intervalle.
Erreur type de mesure
écart-type d’une population hypothétique de scores observés, distribués autour d’un score vrai.
C’est un indice de l’erreur attribuable à un manque de fidélité (différences entre le score observé et le score vrai).
Erreur type de la moyenne
écart-type d’une population hypothétique
d’échantillonnage de moyennes, distribuées autour de la population moyenne.
C’est un indice de l’erreur attribuable à un échantillonnage aléatoire (résultats différents su d’autres cas étaient sélectionnés lors de l’échantillonnage)
Erreur type d’estimation
écart-type des scores Y réels autour des scores Y estimés, lorsque la prédiction repose sur X.
C’est un indice de l’erreur de l’estimation, au moment de prédire les scores de Y, à partir des scores de X
Fidélité dans les rapports narratifs
o L’information de la fidélité est présentée dans des termes quantitatifs, au moyen d’un coefficient de fidélité (p.ex. un alpha de Cronbach de 0.80).
o Difficile de « traduire » le coefficient en forme « narrative ».
o Pour bien interpréter les résultats, un rapport devrait inclure la notion d’erreur de mesure (p.ex. inclure des intervalles de confiance pour chaque score)
Fidélité des items et des sous-tests
o Le fait que l’échelle totale (score total) d’un questionnaire ait une bonne fidélité n’implique pas que les sous-tests ou les items individuels aient aussi une bonne fidélité.
o Il faudrait faire des analyses de fiabilité avec les sous-tests ou dimensions du questionnaire.
Fidélité des tests critériés (de rendement)
- Besoin d’employer d’autres méthodes pour évaluer la fidélité
- Commentaire applicable seulement à des tests de rendement. P.ex. un examen de connaissance de stats, où l’enseignent détermine de façon arbitraire quelle est la note de passage.
Théorie classique de tests VS. Théorie de la réponse à l’item (TRI)
Tout le contenu abordé à propos de la fidélité a été basé sur la théorie classique de tests.
o La grande majorité des tests existants sont fondés sur la théorie classique de tests.
o La théorie de la réponse à l’item (TRI) aborde la fidélité seulement sous l’angle de la cohérence interne.
o Dans la TRI, la fidélité repose sur le fonctionnement des items : Chaque item est indépendant et peut influencer d’une façon distincte le score total.
Théorie de la généralisabilité (generalizability theory)
-> essaie évaluer simultanément plusieurs types de fiabilité (et sources d’erreurs)
o Au lieu de faire plusieurs études, faire une seule grande étude où : la personne se prête à des tests à plusieurs occasions, dans toutes sortes de versions de test et avec plusieurs évaluateurs différents.
o Si on fait le précédent, on obtiendrait le score univers (équivalent du score vrai de la théorie classique).
C’est une perspective intéressante…
o Mais, elle ne connaît pas encore beaucoup d’applications pratiques.
o Il est très difficile, sur le plan pratique, de mener ce type d’études…
Quel degré de fidélité devrait-on viser?
Si l’on doit prendre une décision très importante à la lumière des résultats d’un test, on doit utiliser un test très fidèle.
Si le test n’est qu’une source d’info parmi d’autres, on peut utiliser un taux de fidélité modéré