cours 1-5 Flashcards

1
Q

test - 2 définitions

A

Test : une procédure destinée à établir la qualité, les performances ou la fiabilité de quelque chose, en particulier avant qu’il ne soit utilisé à grande échelle.
Test : méthode ou outil standardisé qui fournit de l’information sur un échantillon de comportements ou de processus cognitifs sous une forme quantifiée

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

SAT 1 et 2 VS SAT 10 –> mêmes initiales mais pas le même test!
SAT1 :
SAT2 :
SAT 10 (Stanford Achievement Test) :

A

SAT1 (Scholastic Aptitude Test) : test de raisonnement
SAT2 (Scholastic Aptitude Test) : tests mathématiques dans divers domaines
SAT 10 (Stanford Achievement Test) : utilisé pour évaluer la réussite scolaire de maternelle au secondaire

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

5 types de tests

A
  1. Tests d’aptitudes intellectuelles
  2. Tests d’accomplissement/tests de rendement
  3. Tests de personnalité
  4. Intérêts et attitudes
  5. Tests neuropsychologiques
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Tests d’aptitudes intellectuelles

A
  • Évalue fonctions cognitives/mentales (mémoire, visualisation spatiale, pensée créatrice, raisonnement, vocabulaire…)
  • individuels ou collectifs
  • Exemples :
    SAT 1-2
     Scholastic Aptitude Test (SATs) - SAT 1 et 2
     Wechsler Adult Intelligence Scale (WAIS)
     Échelle d’intelligence Stanford-Binet
     Test d’habileté scolaire d’Otis-Lennon
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Tests d’accomplissement/tests de rendement

A
  • Évaluer le niveau de connaissance ou d’habileté dans un domaine particulier
  • Inclut seulement tests standardisés élaborés par professionnels (pas examens d’école)
  • le + utilisé
    1. Batteries de tests = ensemble de tests sur une discipline
    2. Sujet unique / tests thématiques
    3. Certification, homologation (diplômes, brevets)
    4. Programmes parrainés par le gouvernement (exemple : test du ministère)
    5. Tests individuels de rendement : pour diagnostiquer problèmes comme les troubles d’apprentissage
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Tests de personnalité

A
  • Visent à obtenir de l’info sur la personnalité d’un individu
  • Tests objectifs de personnalité : notation objective/impartiale, et basée sur des réponses à des items à choix de réponses.
    2 catégories :
    – traits
    – troubles
  • Tests projectifs de personnalité : présentent au candidat une tâche simple mais non-structurée.

o HEXACO (Très moderne, plus moderne que le livre) ***
o HEXACO.org
o NEO-PI (big 5)
o MMPI (Très clinique) :
o MMPI1-2 : fournit un profil comparant les rép du candidat à celles de plusieurs groupes cliniques
o SD3 – (Short-Dark Triad-3)
o BDI (Inventaire de dépression de Beck)
o EDI (inventaire des troubles alimentaires)
“——————————————”
Rorschach
SJT

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Tests d’intérêts et attitudes

A
  • Échelles d’attitudes (opinions)
  • Valeurs
  • Intérêts
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Tests neuropsychologiques

A
  • Obtenir des infos sur le fonctionnement du système nerveux central, notamment celui de l’encéphale
  • Constitue une catégorie + ou – distincte pcq bcp de tests utilisés pour les évaluations neuropsychologiques appartiennent à d’autres catégories. Par exemple, tests d’aptitudes et de personnalité
  • Mais catégorie distincte pour les tests qui visent uniquement à évaluer les fonctions cérébrales. Exemple : tests de coordination psychomotrice
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Autres méthodes de classement des tests

A

Performance VS papier-crayon : tâche VS répondre sur papier/informatisé
Vitesse VS puissance
individuel VS collectif
Performance maximale VS performance typique
Référentiel normatif VS référentiel critérié : absolu vs relatif (percentile)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Utilisateurs des tests (4)

A
  1. Clinique
  2. Éducatif : collectifs d’aptitudes et rendement
  3. Travail
  4. Recherche
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

4 hypothèses de base

A
  1. Les humains ont des traits ou des caractéristiques qui sont reconnaissables
    Ces traits décrivent certaines facette importantes des personnes ; les différences entre les personnes peuvent avoir de l’importance
  2. Nous pouvons quantifier ces traits
  3. Les traits ont un certain degré de stabilité ou permanence
  4. Les trais stables quantifiés par les tests (nos mesures) sont liés au comportement dans des situations réelles.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

5 questions fondamentales

A
  1. Fidélité
  2. Validité
  3. Utilisation de normes
  4. Élaboration du test
  5. Questions pratiques sur le test (coût, durée, accès, traduction, etc.)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Perspective différentielle

A

Perspective différentielle suppose que la réponse peut varier d’une personne à l’autre (contrairement à par exemple la théorie de conditionnement opérant de skinner qui décrit des lois universelles qui s’appliquent à tous les humains)
Ici, on s’intéresse + aux différences qu’aux ressemblances entre individu

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Processus de développement de l’échelle (6 étapes)

A
  1. Générer des questions
  2. Distribuer les questions
  3. Évaluation initiale des questions et réduction des items
  4. Évaluation de la structure des questions (évaluer fiabilité du test)
  5. Évaluation de la validité/exactitude des questions
  6. Reproduire les résultats
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Principales sources de développement (raisons pour lesquelles essor des tests) (6)

A
  1. Impulsion scientifique
  2. Préoccupation/intérêt envers l’individu
  3. Applications pratiques
  4. Méthodologie statistique
  5. Essor de la psychologie clinique
  6. Utilisation des ordinateurs
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

les statistiques opèrent sur des données brutes ou normalisées ?

A

sur des données brutes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

4 types d’échelle

A

nominale, ordinale, intervalle, rapport

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

On peut décrire les variables selon 3 niveaux de généralité :
Construit :
Variable mesurée :
Données brutes :

A

Construit : la variable est décrite et définie verbalement. Niveau le plus général. Exemple : l’intelligence peut être définie comme la capacité de manipuler des symboles abstraits.
Variable mesurée : définition opérationnelle de la variable. Souvent sous forme de test.
Données brutes : obtention de données brutes – chiffres résultant de l’application des mesures. Données brutes sont le niveau le plus spécifique d’une variable. Résultat provenant de mesures.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

2 volets des statistiques :
Statistiques descriptives :
Statistiques inférentielles :

A
  • Statistiques descriptives : aide à résumer ou décrire les données brutes pour faciliter la compréhension des résultats. Données proviennent la plupart du temps d’un échantillon de personnes faisant partie de la population d’intérêt.
  • Statistiques inférentielles : aide à tirer des conclusions (inférences) sur ce qui est probablement vrai au sein de la population, en fonction de ce qui a été découvert au sujet de l’échantillon
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Façons d’organiser nos données brutes
Pourquoi organiser nos données brutes ?

A
  • Tableau de fréquences, histogramme, polygone de fréquences
  • Permet de voir certaines caractéristiques dans nos données (étendue, zone où les scores sont plus concentrés…) qu’on ne verrait pas s’ils n’étaient pas organisés.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Indice qui permet encore mieux que les tableaux de fréquences de représenter l’ensemble des données

A

indice de tendance centrale
= le centre autour duquel les données brutes tendent à se regrouper. = la valeur “typique” de la distribution
moyenne, mode et médiane

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

3 mesures de tendance centrale bcp utilisées :

A

Moyenne
Mode : score le plus fréquent d’une distribution
Médiane : score du milieu qui divise la série de scores en 2.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

quelle(s) mesure(s) de tendance centrale est/sont affectée(s) par les scores extrêmes ?

A

juste la moyenne

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

mesures de tendances centrale VS mesures de dispersion

A
  • tendance centrale indique la valeur “typique” de la distribution
  • mesures de dispersion indiquent comment les données sont distribuées/réparties autour de la moyenne
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

indices de dispersion

A

Étendue : distance entre le max et le min
Écart-type : indice de la variabilité
Variance : très semblable à l’écart-type
Intervalle interquartile : distance qui sépare le premier quartile du troisième (le 25e et le 75e centile).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Formes de distributions -
3 manières principales de les distinguer :

A

étendue
forme (symétrie et aplatissement)
tendance centrale

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

distribution normale :
moyenne et écart-type

A

moyenne = 0
écart-type = 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Comment savoir où se situe une observation dans la distribution normale ?

A

transformer en score z

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Vrai ou Faux :
Donc toutes les distributions de scores Z ont la même moyenne et écart-type, peu importe la valeur des scores bruts initiaux

A

VRAI

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

rang centile

A

Indique la proportion des membres du groupe de référence qui se situent sous un score donné

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

rang centile - inégalité des unités dans l’échelle

A

les rangs percentiles se regroupent au centre et sont plus étalés aux extrémités de la distribution. Implique qu’une différence de scores bruts donnée (exemple : 3 points) est une grosse différence de rangs percentiles si au milieu de la distribution, mais petite différence si à une extrémité. C’est un problème dû au fait qu’on calcule les rangs percentiles à partir de la distribution normale.
pcq courbe normale a moins d’observations regroupées aux extrémités donc si à la base la personne se trouve à une extrémité et qu’on ajoute 3 pt à son score brut, ça va presque pas changer son rang percentile pcq elle va pas dépasser full plus de monde. alors qu’au milieu, si 3 pts de plus à son score brut, ya plein de gens être détronés (pcq plus de fréquences au milieu de la courbe) donc elle va gagner bcp dans le percentiles

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Stanines (standard nines) -
moyenne et écart type

A

moyenne = 5
ET = ~2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

stanines - pourquoi?

A

La raison pour laquelle ce nouveau format a été créé est qu’il y a un espace égal entre les intervalles de la distribution normale - sauf aux extrémités.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

scores pondérés :
qu’est-ce que c’est et quels sont les différents types ?

A

conversion des scores brut en un système avec une certaine moyenne et ÉT
* scores Z : M = 0, ET = 1
* Scores T : M = 50, ET = 10
* SATs, GREs : M = 500, ÉT = 100
* Écart QI : M = 100, ÉT = 15 ou 16
* Stanines : M = 5, ÉT = ~2. = transformation NON-LINÉAIRE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

avantages et inconvénients des scores standardisés/pondérés

A

Avantages
* Pratiques pour interpréter le rendement à un test. Bcp de traits étudiés en psycho suivent une courbe normale
* Évite le problème d’inégalité des intervalles dans les percentiles (inégalité des unités). Donc mieux pour les calculs statistiques
Inconvénients
* Peu de gens savent ce qu’est une courbe normale ou un score Z.
* Faut connaître les valeurs de moyenne et d’écart-type pour que le score Z veuille dire qqchose pour nous. Mais c’est pas automatiquement 0 parce qu’il existe d’autres systèmes de scores pondérés où la moyenne et ÉT sont différents. Exemple, un score de 26 sur l’ACT ne veut rien dire pour nous si on va pas consulter quelle moyenne et écart-type est utilisée dans ce système

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Groupes de référence
Qu’est-ce que c’est ?
Différents types (8)

A
  • Un groupe normatif est un échantillon de candidats au test qui sont représentatifs de la population à laquelle le test est destiné
  • Le test est soumis au groupe de référence dans le cadre d’un programme d’étalonnage/programme de normalisation.
  • On fonde les normes du test sur les résultats obtenus par le groupe de référence
  • L’interprétation des scores est influencée par le groupe de référence utilisé dans l’établissement des normes

Types de groupes de référence :
1. Normes nationales : normes fondées sur groupe représentatif d’un segment de la population nationale. exemple : test dont les normes sont fondées sur des échantillons représentatifs des enfants de 5e année du Québec
2. Normes internationales : normes fondées sur les résultats de gens provenant de différents pays
3. Groupes de commodité : visent à présenter une norme nationale, mais taille trop élevée. Donc ont plutôt des normes qui reposent sur un ou plusieurs groupes de commodité qui sont «opportunément» disponibles. Les membres de ces groupes proviennent souvent d’une même région géographique, héritage culturel similaire, etc.
4. Normes d’utilisateurs : reposent sur les groupes qui se sont soumis au test, quels qu’ils soient. Les nouvelles données sont ajoutées à la base de données normative.
5. Pas de tentative à priori de s’assurer que les groupes soient représentatifs d’une population en particulier
6. Normes de sous-groupe : sous-groupes sont tirés du groupe de référence global. Par exemple, des normes distinctes selon le sexe, groupe sociodémographique, ethnie, région démographique… Sont utiles juste s’il y a des diff importantes entre les sous-groupes sur la variable mesurée
7. Normes locales : exemple : test fait dans une école, on fait une distribution des scores et interprète les scores par rapport à l’ensemble des élèves. Scores s’exprimeraient presque tjrs sous forme de percentile.
Exemple : entreprise utilise test d’aptitudes de calcul pour sélectionner des employés. Administré à 200 candidats chaque année. Tiennent compte de ces 200 candidats pour élaborer une norme locale
Avantage : on connait bien les caractéristiques du groupe de référence, pcq il est formé de personnes se trouvant dans une même situation.
Désavantage : la personne type est la moyenne. Donc la norme locale ne permet pas de déterminer si le sujet type se situe au-dessus ou sous la moyenne relativement à un certain cadre de référence extérieur
8. Normes institutionnelle : normes institutionnelles sont fondées sur les moyennes relatives aux personnes au sein des institutions
Exemple : 5000 étudiants de 200 collèges sont soumis à un test et un score moyen est établi pour chacun des 200 collèges. On fait une distribution des fréquences de ces moyennes, puis une norme à partir de ces moyennes, souvent sous forme de centile. = une norme institutionnelle.
Peut aussi l’appeler norme scolaire ou norme de groupe
Habituellement, distributions des scores indiv et des moyennes de groupe ont approximativement le même centre, mais scores indiv sont plus variés que les moy de groupe. Donc un score brut donné est plus déviant p/r à une norme d’institution que p/r aux normes liées aux individus. Scores sous la moyenne seront encore plus déviants p/r à la moy institutionnelle que p/r à la norme individuelle, et vice-versa pour les normes sous la moyenne.
Peut y avoir confusion si on fait pas clairement la distinction entre les normes individuelles et les normes institutionnelles. Exemple : «Le score de la région de Montréal est au 95e percentile de la norme provinciale.»  gens pourraient penser que les résultats de l’élève type de Montréal sont supérieurs à ceux de 95% des élèves du Qc. Mais si ce 95e percentile est fondé sur des normes institutionnelles, très probable que cet élève type de Mtl ait eu des résultats supérieurs à 70 % des élèves de la province uniquement. Figure 3.21

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Toutes les normes sont-elles bonnes ?
2 questions particulières

A

NON! –> biaisées
Effet de non-participation et effet de motivation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Effet Barnum

A

tendance des gens à accepter des desctiptions très vagues qui sotn probablement vraies pour tous, mais ne contiennent aucun renseignement spécifique découlant du test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

percentiles, scores pondérés, normes de développement et groupes de référence –> types d’interprétation ____

A

interprétation NORMATIVE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

Interprétation normative VS interprétation critériée :
Résultat de 90 % ou plus correspond à A+ –> = une interprétation ____.
Si tout le monde dans la classe obtient un 85 et qu’un professeur décide ensuite de fléchir [bell curve] les notes pour que la moyenne soit de B –> interprétation ____

A

Résultat de 90 % ou plus correspond à A+ –> = une interprétation critériée.
Si tout le monde dans la classe obtient un 85 et qu’un professeur décide ensuite de fléchir [bell curve] les notes pour que la moyenne soit de B –> interprétation normative - norme locale (pcq on interprète les scores par rapport à l’ensemble de la classe)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

Normes de développement

A
  • Quand le trait mesuré se développe systématiquement avec le temps
  • Normes de développement n’ont de signification que si le trait mesuré se développe ou croît avec le temps dans la population visée.
  • Le score brut est interprété en fonction de l’âge ou du niveau scolaire auquel il est normalement associé

Équivalents d’âge (âge mental) : dans certains tests d’aptitudes intellectuelles. Le score est appelé «âge mental». Proviennent des échelles métriques de l’intelligence (Binet-Simon)
Déterminés en établissant le score moyen ou médian de la personne à des âges successifs
Équivalents de niveau scolaire : utilisés dans des tests de connaissances. Déterminés lors de l’administration d’un test à des élèves de différents niveau scolaires
Permet de déterminer la performance type ou médiane de chaque niveau scolaire

Autres normes de développement :
Tests fondés sur les théories concernant les stades de développement de l’être humain. Exemples : théorie de Piaget sur le dév cognitif, théorie de Kohlberg sur le dév moral
Résultats à ces tests situent le sujet à un certain stade. Exemple : épreuve de développement de la pensée logique qui situe un enfant au «stade préopératoire» du dév cognitif
Mesures anthropométriques (ex : taille et poids). Sont souvent interprétées en fonction de normes de développement. Souvent interprétés par rapport à l’âge de l’enfant. Exemple : il est très grand pour son âge

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
42
Q

validité & fidélité -
Un test peut être ____ mais pas ____
Mais un test ne peut PAS être ____ s’il n’est pas ____

A

Un test peut être fidèle mais pas valide
Mais un test ne peut PAS être valide s’il n’est pas fidèle
fidélité > validité

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
43
Q

fidélité -
changement réel VS changement temporaire

A

Changement réel du trait mesuré
VS
Fluctuations dues à modification temporaire des circonstances personnelles, hasard qui détermine la version du test ou différences imputables à l’évaluateur
Changement réel du trait –> n’est pas une source d’erreur de mesure
Changement temporaire –> sources d’erreur de mesure

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
44
Q

fidélité -
Erreurs systématiques VS erreurs aléatoires

A

Erreur systématique –> réduit systématiquement les résultats pour un individu ou un groupe et survient en raison de facteurs étrangers au test.
La fidélité ne tient pas compte de ces erreurs systématiques
Erreurs systématiques (non aléatoires) –> ne nuisent pas à la fidélité
Variations aléatoires des résultats –> nuit à sa fidélité

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
45
Q

Distribution bivariée

A

représente relation entre 2 variable
= nuage de points = diagramme de dispersion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
46
Q

Corrélations -
Si pour chaque score X donné, peu de variabilité sur score Y –> coefficient est ____

A

coefficient élevé

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
47
Q

corrélation -
taille d’effet (r^2)

A

proportion de la variance dans les scores qui expliquée par la relation entre les variables. r^2
0.1-0.3 –> petite
0.3-0.5 –> moyenne
0.5 et + –> forte

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
48
Q

Droite de régression :
Droite qui parvient le mieux à montrer la relation entre les points de 2 variables.
Minimise l’erreur de prédiction
Plus r est élevé, moins les scores sont dispersés
Le Y prédit est noté par le symbole Y ‘

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
49
Q

Est-ce que c’est la position relative ou absolue qui affecte le coefficient de corrélation ?

A

la position relative
position absolue n’a aucun impact

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
50
Q

3 choses qui influent sur le coefficient de corrélation

A
  1. linéarité VS non-linéarité
  2. position relative (et non absolue)
  3. hétérogénéité du groupe
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
51
Q

corriger le r pour une étendue trop restreinte

A

On fait ça pcq si l’étendue est trop restreinte, les scores vont être plus homogènes, et donc la corrélation sera sous-estimée
Si variabilité beaucoup plus faible dans groupe homogène que dans groupe hétérogène –> correction pour l’homogénéité a effet important.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
52
Q

Tout ce qui entraîne des variations ____ dans les résultats d’un test nuit à sa fidélité.
Il y a 4 principales sources d’erreur de mesure occasionnant des problèmes de fidélité

A

Tout ce qui entraîne des variations aléatoires dans les résultats d’un test nuit à sa fidélité.
1. Type de correction du test
2. Contenu du test
3. Conditions d’administration du test
4. Circonstances personnelles

53
Q

Des étudiants ont mal répondu à une question d’examen pcq ont été dérangés par un cellulaire qui a sonné.
Est-ce un exemple de variation systématique ou aléatoire ?

A

= variation aléatoire

54
Q

les gens ont tendance en général à être réticents à dévoiler leurs actes délinquants, ce qui aurait pour effet de diminuer leur score sur une mesure de délinquance
Est-ce un exemple de variation systématique ou aléatoire ?

A

= variation systématique

55
Q

Plus la correction fait appel au jugement de l’évaluateur et implique de faire des inférences, plus il y a risque de manque de ____

A

fidélité

56
Q

Si quelque chose crée des différences dans les résultats qui ne sont pas dues au trait mesuré, ça nuit à la ____

A

fidélité

57
Q

On peut aborder la notion de fidélité des tests en fonction de 3 modèles théoriques de mesure :

A
  1. Modèles de la théorie classique des tests (TCT)
  2. Modèles de la théorie de réponse à l’item (TRI)
  3. Modèles de la théorie de la généralisabilité (TG)
58
Q

Fidélité - Modèles de la théorie classique des tests (TCT)

A

Score observé (O) = score vrai (V) + erreur de mesure (E)

59
Q

Fidélité - Modèles de la théorie classique des tests (TCT)
L’erreur de mesure (E) représente la ____ de toutes les influences ____ qui pourraient compromettre la mesure

A

Score observé (O) = score vrai (V) + erreur de mesure (E)
L’erreur de mesure (E) représente la somme de toutes les influences aléatoires qui pourraient compromettre la mesure

60
Q

3 implications de la TCT

A
  1. Les scores vrais (V) et les erreurs (E) ne sont pas corrélés (sont indépendants)
  2. La moyenne des erreurs entre les personnes = 0
  3. Sur l’ensemble des mesures répétées, le score moyen d’une personne est ≈ égal leur vrai score. Parce que la moyenne annule les erreurs aléatoires
61
Q

La fidélité est le rapport entre la ____ et la ____.

A

La fidélité est le rapport entre la variance réelle (V) du score et la variance totale (O) du score.
= variance vraie/variance observée

62
Q

Les méthodes servant à déterminer la fidélité visent à estimer l’écart entre ____ d’une personne et ____, donc à estimer la ____.

A

Les méthodes servant à déterminer la fidélité visent à estimer l’écart entre le score observé (O) d’une personne et son score vrai (V), donc à estimer la marge d’erreur (E)

63
Q

4 méthodes pour déterminer la fidélité et les sources d’erreur qu’ils ciblent

A
  1. Test-retest — fluctuations mentales et physiques des participants, les conditions d’administration du test et les correcteurs
  2. Interjuges — variations aléatoires attribuables aux correcteurs. Et si administré à des journées différentes, mesure aussi fluctuations associées à l’état du participant
  3. Formes parallèles — erreur d’échantillonnage des items
  4. Cohérence interne
64
Q

Dans quel cas est-ce qu’on ne peut aps utiliser la cohérence interne pour déterminer la fidélité d’un test ?

A

si c’est un test chronométré, donc si la vitesse influe sur les résultats. ça surestimerait la fidélité

65
Q

3 méthodes d’évaluation de cohérence interne :

A
  1. La bissection (split-half) – diapo suivante
  2. Formules de Kuder-Richardson
  3. Coefficient alpha
66
Q

Fidélité -
Cohérence interne -
Fidélité déterminée par bissection

A

On administre un seul test
On divise en 2 selon les items pairs et impairs
On corrige chaque moitié séparément comme s’il s’agissait de 2 tests différents
On calcule la corrélation entre les 2 moitiés
Consiste en quelque sorte à créer une version réduite des versions parallèles

2 implications importantes :
1. N’est pas scindé à sa moitié pcq dernières questions d’un test sont souvent plus difficiles, participants sont +fatigués vers la fin- -> Séparent le test en 2 selon les items pairs et impairs
2. Corrélation entre les 2 moitiés n’exprime pas la fidélité du test en entier : est une SOUS-ESTIMATION de la fidélité du test complet en raison des différences aléatoires entre les 2 parties –> donc nécessite une correction de Spearman-Brown

67
Q

Fidélité -
Cohérence interne -
Fidélité déterminée par bissection :
Pourquoi est-ce qu’on doit faire la correction de Spearman-Brown

A

parce que le coefficient de fidélité obtenu en comparant les 2 moitiés est une sous-estimation de la fidélité du test entier, car différences aléatoires entre les 2 moitiés

68
Q

cohérence interne - quel est l’impact du nbr d’items sur le coefficient de fidélité

A

test plus long (plus d’items) –> coefficient de fidélité plus élevé

69
Q

Pour obtenir une grande fidélité par cohérence (cohérence interne), faut utiliser des items qui mesurent un trait ____

A

un trait bien défini

70
Q

Fidélité -
Pour faire une interprétation pratique (difficile de faire interprétations pratiques avec coefficient de fidélité), on utilise ____.

A

l’erreur type de mesure (ETM)

71
Q

Erreur type de mesure (ETM)

A

l’écart type d’un nombre théorique infini de scores obtenus avoisinant le score vrai d’une personne

72
Q

3 sortes d’erreurs types

A
  1. erreur type de mesure (ETM) : attribuable à un manque de fidélité
  2. erreur type de la moyenne : attribuable à l’échantillonnage aléatoire
  3. erreur type d’estimation : indice d’erreur pour estimer y à partir de x. Écarts types des scores Y réels autour des scores Y estimés lorsque l’estimation repose sur X
73
Q

l’erreur type de mesure (ETM) est attribuable à un manque de ____.

A

fidélité

74
Q

Fidélité dans les rapports narratifs

A

Présente des infos sur la fidélité en termes qualitatifs (et non en chiffres, genr epar coeff de fidélité et ETM)

Lecture du rapport narratif commande 2 précautions :
a) s’assurer de connaître l’info relative à la fidélité du test
b) En faire bon usage au moment d’interpréter le rapport
Tout bon rapport narratif devrait intégrer la notion d’erreur de mesure (exemple, inclure les intervalles de confiance, générer indices d’Accord interjuges…)

75
Q

Fidélité selon la théorie de réponse à l’item (TRI) - différences avec la fidélité selon la TCT

A

Analyse de cohérence interne avec le TRI repose sur fonctionnement des items du test, comme alpha de Cronbach, mais dans tests élaborés selon la TRI, items sont interdépendants
Thêta = score obtenu pour trait mesuré
Erreur type (ET(thêta)) : indice de la précision de la mesure
Avantage de l’ET(thêta) p/r à l’ETM de la TCT : TCT présume que l’ETM est le même peu importe le score obtenu. Alors que ET(thêta) est déterminé pour chaque score

76
Q

2 facteurs influant sur le coefficient de fidélité

A
  1. Hétéroscédasticité –> peut être problématique pour l’ETM
    Solution : visualisation du graphique (nuage de points) pour vérifier si OK.
  2. Hétérogénéité –> souvent problème dans l’interprétation des données de fidélité. Données de fidélité peuvent avoir été recueillies auprès d’un groupe bcp plus homogène ou hétérogène que le groupe jugé approprié au cadre d’interprétation.
    Solution : utiliser formules 4.5 et 4.6 (p.80) pour corriger l’excès d’homogénéité ou d’hétérogénéité
77
Q

Quel degré de fidélité devrait-on viser ?

A

Pour prendre décisions importantes basées sur les réaultats du test –> 0.90 et +
0.8-0.9 –>bon
0.6-0.69 –> devrait être unilisé juste en recherche
0.6 et moins –> vaut mieux utiliser un autre test

78
Q

5 infos supplémentaires sur le taux de fidélité qu’on devrait rechercher :

A
  1. La plupart des études de fidélité estiment juste une source d’erreur (ex : juste cohérence interne ou test-retest). Donc même si on a coeff de fidélité de 0,90, veut pas dire que a bien couvert les bases en matière de fidélité
  2. L’usage des tests implique souvent de comparer les scores à l’intérieur d’un profil, calculer les différences entre ceux-ci. Ces différences sont presque tjrs moins fidèles que la fidélité des scores eux-mêmes
  3. La fidélité est toujours importante, peu importe le type de test. Peut pas utiliser une info pas fidèle
  4. Tests courts –> généralement peu fidèles
  5. Certains auteurs de tests soulignent la sig statistique des coefficients de fidélité en affirmant que le coeff est très important. Ce genre de compte renud est pas très utile. On vise des standards bcp plus élevés en termes de coeff de fidélité que l’atteinte de simple seuils statistiques
79
Q

Validité -
On parle de l’interprétation d’un score à une fin ou pour un usage particulier :
Ce sont les ____ qui sont évalués et non ____.
Quand les scores d’un test sont utilisés ou interprétés de plus d’une façon, ____ doit être validée.

A

Ce sont les interprétations des scores de tests requises par les usages proposés qui sont évalués et non le test lui-même.
Quand les scores d’un test sont utilisés ou interprétés de plus d’une façon, chaque interprétation doit être validée.

80
Q

Faut distinguer validité VS exactitude des normes pour un test :

A

Un test peut être valide mais avoir des normes déficientes (et l’inverse)
Exemple : tests A et B sont des tests de QI servant à prédire la moyenne générale au cégep. Ils ont corrélation de 0,65 avec la moyenne générale. Dans les 2 cas, moyenne générale est de 3. QI moyen au test A = 110, et QI moyen au test B = 80.

81
Q

Dans cet exemple, est-ce que les 2 tests ont la même validité ? Est-ce que c’est la validité ou les normes qui est problématique ?
Tests A et B sont des tests de QI servant à prédire la moyenne générale au cégep. Ils ont corrélation de 0,65 avec la moyenne générale. Dans les 2 cas, moyenne générale est de 3. QI moyen au test A = 110, et QI moyen au test B = 80.

A

–> Puisque coefficient de validité (r = 0,65, corrélation entre résultat au test et le score réel prédit) est le même pour les 2 tests, les 2 sont également valides en ce qui concerne la prédiction de la moyenne générale
–> Le problème est par rapport à l’exactitude des normes de ces 2 tests, et non par rapport à sa validité

82
Q

Sous-représentation du construit :

A

partie du construit qui n’est pas couverte par le test. Le degré auquel un test omet d’importants aspects du construit

83
Q

Variance non reliée au construit :

A

degré auquel les scores du test subissent l’influence d’éléments extérieurs au construit en question

84
Q

Les scores à un test de dépression reflètent une tendance à donner des réponses socialement acceptables.
De quel type d’erreur s’agit-il ? Quel est l’impact sur la validité et la fidélité ?

A

= erreur systématique
* Donc n’impacte pas la fidélité, parce que demeure une mesure constante
* Mais le test mesure quelque chose qu’il n’est pas censé mesurer –> variance non-reliée au construit –> nuit à la validité

85
Q

3 types de preuve de validité

A
  • Validité de construit
  • Validité critériée
    Concomitante
    Prédictive
  • Validité de contenu
  • Validité apparente
86
Q

Validité de contenu

A
  • Vérifie si le test correspond suffisamment au contenu bien défini du domaine
  • Définir le contenu du domaine, puis vérifier degré de correspondance entre le test et ce contenu
  • Contenu du test doit bien correspondre au contenu du domaine étudié
  • Contenu du test doit couvrir un échantillon représentatif de tous les éléments possibles du domaine
87
Q

2 applications principales de la validité de contenu :

A

Rendement scolaire
Test d’aptitudes professionnelles

88
Q

Type de validité le + important pour les tests de rendement

A

validité de contenu

89
Q

Validité de contenu -
Domaine de contenu et taxinomie de Bloom

A
  • On fait un tableau de spécifications à 2 dimensions pour un certain domaine de contenu, et ensuite on compare le contenu du test au tableau pour déterminer la validité de contenu
    Exemple : pour un test sur le chapitre 5 du présent manuel, pourrait se baser sur les objectifs d’apprentissage donnés au début du chapitre
  • –> ça révèle (1) les domaines de contenu non couverts par le test et (2) les items du test qui ne reflètent pas les spécifications de contenu. (= sous-représentation et variance non reliée)
  • Si 10 % du contenu touche concepts liés à X –> ; 10 % des items du test devraient viser ce thème. Si juste 1 % ou si 20 % des items visent X –> mauvaise validité de contenu pour X

Taxinomie de Bloom
* = modèle de représentation pour domaine de contenu
* 3 modèles de taxinomie/classement : (1) domaine cognitif, (2) affectif et (3) psychomoteur
* cognitif : connaissances, compréhension, application, analyse, synthèse et évaluation

90
Q

Validité didactique

A

Est une application particulière de la validité de contenu
Validité didactique : savoir si le contenu a bel et bien été enseigné
s’applique principalement aux tests de rendement scolaire

91
Q

Validité de contenu – application aux tests d’aptitude professionnelle

A
  • Comme pour validité de contenu des tests de rendement
  • Mais ici, domaine de contenu est composé des connaissances et compétences nécessaires pour occuper un poste en particulier
  • Validation via analyse de poste
  • On élabore l’analyse du poste et ensuit on compare contenu du test au contenu du poste
92
Q

2 différences entre application de la validité de contenu pour tests de rendement VS pour tests d’aptitudes professionnelles :

A
  • (1) Pour tests de rendement : documents imprimés servent de base pour les spécifications de contenu.
    Pour tests d’aptitudes professionnelles : spécifications sont établies par un groupe d’experts
  • (2) Chiffres en pourcentage sont davantage utilisés dans tests d’aptitude professionnelle et rarement dans tests de rendement
93
Q

pourquoi est-ce que la vallidité de contenu s’applique pas très bien aux autres domaines que les tests de rendement et les tests d’aptitudes professionnelles ?

A
  • Les autres domaines ont rarement des spécifications claires quant à leur couverture (spécification de contenu). Les construits ont souvent pas de défiition claire.
  • Mais peut quand même se baser sur un manuel qui décrit le contenu et dire que tous les traits du construit tel qu’il est décrit dans tel manuel sont couverts (ex : DSM5)
94
Q

3 sources de complications dans la validité de contenu

A
  1. Souvent difficile de définir le domaine des items. Exemple : notions mathématiques de 1e à 3e année –> diffèrent d’une province à l’autre. Aussi, dépend si on veut obtenir une connaissance élémentaire ou bien une connaissance en profondeur du sujet
  2. Évaluation du degré auquel les items du test couvrent les éléments de spécification du contenu. Items d’une même catégorie peuvent varier bcp quant aux compétences requises. **Est-ce que tous les items de la catégorie mesurent de manière égale la catégorie du contenu ? **
    Donc important de pas seulement se fier à la liste des catégories, mais aussi examiner les items du test eux-mêmes
  3. Validité de contenu ne fait aucunement référence aux résultats réels du test, contrairement à toutes les autres méthodes d’évaluation de la validité. Donc ne donne aucun indice sur les véritables interactions des personnes évaluées avec le test
95
Q

Validité critériée – but

A

définir la relation entre les résultats au test et un autre critère considéré comme un important indicateur du construit à l’étude

96
Q

Validité critériée - sous-types et les types de critères

A

Validité critériée
Validité prédictive : prédire la valeur que prendront certains critères à l’avenir.
Validité concomitante : concordance entre les résultats au test et la valeur actuelle de d’autres variables.

3 types de critères :
1. Critère réaliste externe
2. Groupes contrastés
3. An autre test

97
Q

Validité critériée
Validité prédictive VS validité concomitante :
Différence entre les 2 =

A

le moment d’évaluation de la variable critère

98
Q

Validité critériée -
Pourquoi ne pas utiliser le critère externe si celui-ci représente aussi le sujet auquel on s’intéresse, au lieu de faire un test sur le même sujet ? –> 2 raisons :

A

(1) Peut ne pas être en mesure d’obtenir l’info avec le critère externe avant un certain temps, alors qu’on veut maintenant prédire la position future de la personne par rapport au critère
(2) Peut être compliqué d’obtenir de l’information sur le critère et on veut utiliser une méthode simple pour estimer la position d’une personne

99
Q

Comment est-ce qu’on calcule la validité critériée ?
Prédiction, erreur, etc.

A

Coefficient de validité : la relation entre le test et le critère externe
Une fois qu’on connait la corrélation entre le test et le critère, on peut faire une prédiction sur le critère à partir du résultat au test. Y’ = bX + a
Erreur type d’estimation : l’écart type des véritables scores critère (Y) autour des scores prédits (Y ‘)
Permet d’estimer les probabilités que les cas aient une valeur supérieure ou inférieure aux prédictions sur le critère externe

100
Q

validité critériée par groupes contrastés -
pour démontrer que le test permet de ____.

A

démontrer que le test permet de différencier un groupe d’un autre

Plus la différenciation entre les groupes est élevée –> meilleure est la validité du test

101
Q

Validité par test critère -
Si on sait ou présume que l’autre test est valide, alors pourquoi ne pas utiliser celui-là tout simplement ? (3)

A
  • Nouveau test pourrait être plus court et moins cher que le test critère
  • Normes du nouveau test pourraient être meilleures
  • Nouvelles données de recherche entre l’ancien et le nouveau test
102
Q

Validité par test critère -
Faire attention de ne pas confondre les mots/termes avec la réalité. Pourquoi ?

A

–> Risque de sophisme inductif de fausse analogie et de déduction
Sophisme inductif de fausse analogie : croire que l’utilisation des mêmes mots ou de mots semblables pour désigner 2 choses signifie que les mots sont la même chose. Exemple : penser que le Wisconsin Intelligence Test et le Test d’intelligence de Montréal mesurent le même trait juste parce que les 2 utilisent le mot « intelligence ».
Sophisme déductif d’opposition : croire que 2 choses sont vraiment différentes parce que leurs noms contiennent des mots différents

103
Q

Validité critériée - 3 facteurs influant sur le coefficient de corrélation

A

Linéarité, homogénéité et hétéroscédasticité

104
Q

Considérations particulières pour l’interprétation de la validité critériée -

A

Validité du test dépend de sa fidélité ET de la fidélité du critère
Fidélité du test ou du critère est limitée –> validité du test est limitée
** !!! Fidélité de critère** est nulle –> aucune validité pour ce critère, même si la fidélité du test est bonne !!!

105
Q

validité -
Atténuation

A

Atténuation : terme technique qui exprime la limite imposée à la validité par une fidélité imparfaite.
On peut calculer l’effet d’une fidélité limitée sur la validité critériée
On peut calculer le coefficient de validité corrigé pou rl’atténuation due à la fidélité limitée

106
Q

validité du critère

A

validité de la définition opérationnelle du critère

107
Q

Contamination du critère

A

Contamination du critère : quand on tente de déterminer la validité d’un test en établissant sa corrélation avec un critère externe, et que le résultat au test influe sur la valeur du critère
Exemple : On veut déterminer la validité d’une échelle de dépression en regardant sa corrélation avec les évaluations de dépression faites par 3 cliniciens. Si les cliniciens ont accès aux scores sur le test et fondent en partie leurs évaluations sur ces scores –> corrélation sera sur-estimée.

108
Q

validité convergente, congruente et divergente

A

Validité convergente : corrélation élevée entre le test et un critère mesurant le même construit
Validité de congruence : validité convergente où le critère est un test
Validité divergente/discriminante : corrélation faible (ou négative) entre le test et des construits autres que ce qu’il doit mesurer.

109
Q

Matrice multitraits multiméthodes

A

Application particulière de validité convergente et discriminante
Matrice de corrélation entre tests censés mesurer plusieurs traits par différentes méthodes
But : démontrer que les corrélations relatives à un trait mais couvrant différentes méthodes sont plus élevées que les corrélations relatives aux méthodes qui couvrent différents traits et que les corrélations qui couvrent à la fois les traits et les méthodes
* Les mesures d’un trait donné doivent converger entre les différentes méthodes de mesure.
* Les corrélations devraient être plus fortes entre des tests qui mesurent la même caractéristique qu’entre des tests qui n’ont rien en commun.
* Les corrélations devraient être plus fortes entre des tests qui mesurent la même caractéristique qu’entre des tests qui partagent uniquement la même méthode de mesure.

110
Q

Validité de construit

A

Un test vise à mesurer un certain construit. Mais ce construit n’a pas tjrs de définition universelle absolue.
Mais on peut utiliser différents types de preuves pour soutenir que le test mesure le construit :
* Validité de contenu
* Corrélation test-critère (validité convergente et divergente)
* Structure interne
* Analyse factorielle
* Autres…

111
Q

Validité de construit - structure interne

A
  • Même chose que dans le contexte de la fidélité
  • Donc coeff KR-20 ou alpha de Cronbach élevé –> mesure du test est constante –> contribue à soutenir l’énoncé selon lequel mesure un construit ou trait particulier
  • Mais est une preuve un peu faible
112
Q

Validité de construit - analyse factorielle

A
  • Permet de déterminer les dimensions communes sous-jacentes aux résultats de nombreuses mesures différentes
  • Exemple, si corrélation de 0,95 entre 2 variables, on peut les regrouper en une seule dimension sous-jacente pour les 2
  • Votre test est-il unidimensionnel ou multidimensionnel ?
  • Nous l’utilisons principalement pour examiner les relations entre les autres éléments.
  • Il peut s’agir d’items provenant du même test ou d’items provenant de tests différents.
  • –> L’analyse factorielle peut donc être utilisée pour nous renseigner sur la validité convergente et discriminante.
113
Q

LNanalyse factorielle peut être utilisée pour nous renseigner sur la validité ____ et la validité ____.

A

validité convergente et discriminante

114
Q

6 étapes de l’élaboration d’un test

A
  1. Définir l’objectif du test
  2. Questions préliminaires de conception
  3. Préparation des items
  4. Analyse des items
    * Mise à l’essai
    * Analyse statistique
    * Sélection des items
  5. Standardisation et autres programmes
  6. Préparation du matériel de test final
115
Q
  1. Définir l’objectif du test -
    Déclaration d’intention/usage anticipé :
A

Déclaration d’intention/usage anticipé : description détaillée du ou des construits que mesure le test, et le public cible.
Ensuite, vérifier si un test similaire existe déjà

116
Q
  1. Questions préliminaires de conception
A

Doivent tenir compte de :
- Mode d’administration
- Longueur (durée, nbr d’items, précision)
- Format des items (QCM, V/F, développement?)
- Nombre de scores produits par le test
- Formation des utilisateurs (utilisateurs auront-ils besoin d’une formation pour administrer et corriger le test?)
Réponses à ces questions peuvent entraîner reformulation de l’énoncé (étape 1)

117
Q
  1. Préparation des items -
    4 parties d’un item
A
  1. Stimulus auquel répond le participant. Prémisse de l’item. Exemple : question
  2. Format/méthode de réponse (développement, QCM…)
  3. Conditions qui disent comment participant doit répondre (limite de temps par item, droit à cahier…)
  4. Procédures de cotation
118
Q
  1. Préparation des items -
    2 types d’items et leurs avantages
A
  1. Choix de réponse
    +++ : fiabilité de la notation, efficacité de la notation, rapide
  2. Développement
    +++ : observation du comportement et de comportements peu fréquent, et permet résultats pas couverts par réponses pré-définies
    — : plus difficile d’établir sa validité
119
Q

4.Analyses des items -
* 4.1 Mise à l’essai
* 4.2 Analyse statistique
* 4.3 Sélection des items

A

4.1 Mise à l’essai
* Stade informel : quelques répondants semblables au public cible, commentent les items pendant la passation pour permettre de détecter les ambiguités
* Stade formel : beaucoup de répondants représentatifs de la population cible

3 démarches courantes :
Méthode de l’étude indépendante : analyser seulement les items
Méthode des ajouts : tester des items en les intégrant à un test existant lors de son administration
Méthode de l’analyse : utiliser à plusieurs reprises un test ou groupe d’items en y ajoutant chaque fois de nouveaux items

120
Q

4.Analyses des items -
* 4.1 Mise à l’essai
* 4.2 Analyse statistique
Difficulté de l’item
Pouvoir discriminant de l’item
* 4.3 Sélection des items

A

4.3 Analyse statistique
* Difficulté de l’item (p-value) : % de candidats qui ont répondu à la question “correctement” ou de la “manière souhaitée”.
Exemple : 10 personnes ont passé un test et que vous leur avez demandé ce que représente 5x5, 8/10 ont répondu 25 –> “p-value” = 0,8 pour cette question

  • Pouvoir discriminant de l’item (discrimination des items) : capacité d’une question à différencier de la manière souhaitée des groupes de candidats
    Repérer des groupes chez qui le trait est plus ou moins présent :
    Méthode externe : utiliser groupes définis par un critère externe pour savoir si les personnes présentant des caractéristiques élevées ou faibles ont répondu correctement ou non aux questions, question par question. Exemple : on prend un groupe préalablement diagnostiqué de dépression et un groupe sain, et on regarde si chaque item permet le mieux de discriminer les 2 groupes en fonction de la réponse des gens à l’item. On peut diviser par exemple selon les 25 % supérieurs, 25 % ensuite, etc.
    Méthode interne : voir si des “groupes naturels” se forment dans les résultats. On regarde si les chaque item permet de différencier les 2 groupes de la même façon que le fait le score total
    Indice D : représente le degré de discrimination d’un item. Différence entre la proportion d’élèves ayant obtenu la bonne réponse à l’item et la proportion d’élèves ayant obtenu une mauvaise réponse à l’item, dans les différents groupes (forts et faibles par exemple). Niveau élevé est préférable (0.3-0.5)
    Corrélation item-total : corrélation totale de l’item désigne la corrélation entre les scores obtenus à une seule question d’un test et les scores obtenus à l’ensemble D
    Le principe ici est que les personnes qui répondent correctement à une question aléatoire ont plus de chances d’obtenir un meilleur résultat global au test, et que celles qui ne répondent pas correctement ont plus de chances d’obtenir des résultats inférieurs.
    Ainsi, la corrélation entre une question et le score total du test nous indique quelque chose. u test.
121
Q

4.Analyses des items -
* 4.1 Mise à l’essai
* 4.2 Analyse statistique
* 4.3 Sélection des items

A

Selon l’analyse de la difficulté des items et l’analyse de la discrimination des items
Nous utilisons à la fois le TCT et le TRI pour produire des informations sur les items que nous avons créés afin de pouvoir sélectionner les meilleurs items possibles pour notre test qui fonctionnent pour faire ce que nous voulons qu’ils fassent.
* Le nbr d’items contenus dans le test est souvent le plus important déterminant de sa fidélité. Tests longs sont plus fidèles
* Le niveau de difficulté moyen du test est fonction directe de la valeur p des items. Note moyenne est la somme des valeurs p x les nbr d’items. Donc p est un indice de facilité plus que de difficulté. Dépendamment de la difficulté qu’on veut dans notre test, on va sélectionner des items dont les valeurs p combinées ensemble vont donner le score moyen qu’on voudrait
* On préfère les items avec un bon indice de discrimination parce que contribuent bien à mesurer le trait. Environ corrélation au mois de 0,3. Mais rare qu’on a des items qui dépassent 0,5
* Il existe une relation importante entre la valeur p d’un item et le maximum qu’on peut atteindre de son indice de discrimination (D). D = valeur maximale quand p est au point milieu.
* Il arrive que des considérations non statistiques tempèrent les critères statistiques de sélection des items. Certains items sont intégrés dans les tests pour répondre aux exigences de contenu, pour garantir la validité. Aussi certains items sont choisis dans un but de stimulation, par exemple commencer avec des items très faciles. Même si ont pouvoir discriminant pratiquement nul (valeur p de genre 0,99), sont utiles. Aussi, des fois on répète des items pour vérifier la constance.

122
Q
  1. Standardisation et autres programmes
A

Générer des normes
Consignes, nbr d’items, durée et autres ne devraient plus changer à partir d’ici.
Études sur la validité et la fidélité du test
3 types de programmes de calibrage :
1. Calibrage de chacune des formes alternatives du test
2. Calibrage de chacun des niveaux du test (si le test est multiniveaux)
3. Calibrage des normes de la nouvelle édition avec celles de l’ancienne

123
Q
  1. Préparation du matériel de test final
A

manuels techniques indiquant le but du test, sa structure, consignes d’administration et d’interprétation des scores, revue de sa validité et fidélité, etc.

124
Q

3 raisons principales de créer de snouveaux tests

A
  1. Combler un besoin
    En France, repérer enfants en besoin d’éducation spécialisée dans les écoles –> Test d’intelligence de Binet
    Offrir aux USA outil comparable au test d’intelligence de Binet –> Échelle d’intelligence Stanford-Binet
    Procurer test intellectuel mieux adapté aux adultes que Stanford-Binet –> Échelle d’intelligence Wechsler-Bellevue
  2. Élaborés à partir d’une base théorique
    TAT = procurer mesure de la personnalité pour la recherche
  3. Réviser ou adapter tests existants
    Adapter test d’intelligence pour les adultes –> Échelle de Wechsler
    Adaptations pour handicaps
125
Q

Qu’est-ce qu’un test biaisé, injuste ou inéquitable ?

A
  • Un test qui ne mesure un construit pas de la même manière d’un groupe à l’autre
  • Si la différence entre les moyennes des groupes ne correspond pas à une différence réelle du trait (mais si la diff entre les groupes est due à diff sur le trait, c’est ok)
  • Le test contient de la VARIANCE NON-RELIÉE AU CONSTRUIT!!!
126
Q

Quel est le problme d’élaborer un test validé sur des blancs causasiens seulement ?

A

Ne s’appliquera pas nécessairement aux autochtones, aux africains, etc.
Pour le savoir, faut vérifier si ça s’applique auprès de ces groupes. Faut le valider auprès de tous les groupes

127
Q

Méthodes d’étude de l’équité des tests (3)

A
  • Révision du contenu des items par un comité d’experts (formé de représentants de divers groupes ethniques)
    Inconvénients :
    Combien de groupes représenter ?
    Subjectivité et risques de mésinterprétation
  • Fonctionnement différentiel des items :
    Si des gens de compétences équivalentes appartenant à des groupes différents obtiennent performance moyenne différente sur un item –> fonctionnement différentiel d’item
    On va regarder s’il y a des items qui différencient/distinguent les groupes. Si oui, on compare ces items à critère externe. s’il n’y a pas de différence sur le critère externe (donc pas de différence réelle entre les groupes sur cet item) –> fonctionnement différentiel d’item, biais
    Détecter les biais par analyse statistique
    Méthode de Mantel-Haenszel
  • Prédiction différentielle : utiliser la validité critériée prédictive pour détecter les biais
    Les tests fonctionnent-ils de la même façon pour divers groupes, même si les résultats moyens varient d’un groupe à l’autre en raison de différences réelles du trait étudié?
    Test de prédiction sans biais prédit avec la même efficacité pour les différents groupes ; pas prédire le même résultat nécessairement, mais de prédire également.
    Analyse de régression pour évaluer la prédiction différentielle
    2 types de biais possibles dans la validité prédictive :
    Biais de l’ordonnée à l’origine : droites de régression de 2 groupes n’ont pas la même ordonnée à l’origine, mais ont la même pente
    Biais de la pente : droites de régression de 2 groupes n’ont pas la même pente
128
Q

Équité des tests -
Distinction entre adaptation/accommodement et modification d’une évaluation

A

Adaptation/accommodement : la personne fait essentiellement le même test que les autres, mais certaines conditions sont changées (ex : taille des caractères, durée du test…). Pour ces tests, on reconnait qu’on peut y appliquer les mêmes normes que les tests originaux
Modification : évaluer une habileté avec une méthode essentiellement différente. Les résultats de ces tests ne sont pas comparables aux tests réguliers.