QUESTIONS DE DEVOIRS Flashcards
Définissez clairement les notions suivantes : Fiabilité, Validité
( 4 points)
Fiabilité
Une mesure est dite fiable si elle ne comporte pas d’erreurs trop importantes.
Ces erreurs peuvent être de deux types :
1) erreurs systématiques qui se répètent à chaque mesure dans le même sens et avec la même intensité ou
2) erreurs aléatoires qui se répètent avec une force différente et pas toujours avec la même intensité.
Validité : Un test est valide lorsqu’il permet d’atteindre de manière satisfaisante les objectifs poursuivis par son constructeur ou qu’il mesure bien ce qu’il est censé mesurer. Il existe plusieurs validité :
• La validité de contenu qui définit si le contenu des items est représentatif du domaine visé par l’évaluation.
• La validité critérielle qui définit le fait qu’un test corrèle notablement ou non avec un critère qui est une autre variable jugée intéressante.
• La validité théorique : qui se réfère à un modèle théorique.
_______________________
Pour bien répondre :
Il faut donner la définition de :
- fiabilité et des 2 erreurs : systématiques et aléatoires
- validité et évoquer idéalement les 3 types. Attention lorsque vous rédigez, prenez en compte le nombre de points accordés à la question !
Donnez un exemple précis pour chacune des erreurs trouvées lors d’un test et montrez l’ambiguïté du coefficient de stabilité
(8 points)
La répétition d’un test, pour vérifier la fidélité de celui-ci donne lieu à 3 sources d’erreur. De manière générale lors d’un test, il existe 2 types d’erreur :
1) l’erreur systématique qui se répète à chaque mesure dans le même sens et avec la même intensité et
2) l’erreur aléatoire, qui se répète avec une force différente et pas toujours avec la même intensité.
Lors de la répétition d’un test, c’est essentiellement les erreurs aléatoires que l’on retrouve.
Première source d’erreur : le choix des items.
»> Lors de la construction d’un test, il faut choisir des items en fonction de ses objectifs. Lors de la répétition de la mesure, on peut utiliser un autre test en s’assurant qu’il évalue les mêmes caractéristiques que le premier et donc qu’il soit similaire au premier. Il faut donc faire attention à ce que les items choisis dans le premier test et dans le second test correspondent.
Deuxième source d’erreur : la subjectivité de la personne qui fait passer le test.
»> Le comportement d’un individu peut être évalué par 2 observateurs. Leur évaluation peut différer de part leur subjectivité. Ce phénomène très connu en psychologie est contrôlé notamment par des modes de cotation et de notation standardisés.
Troisième source d’erreur : le passage du test à deux moments différents.
»> Si le test est passé à deux moments différents, des différences peuvent apparaître qui sont liées à des situations qui ne se présentent pas de la même façon d’un moment à un autre. Au premier passage, l’individu peut par exemple se sentir motivé pour participer au test tandis qu’au deuxième passage, l’individu peut éprouver une lassitude, ce qui influencera ses résultats. Cette source d’erreur peut être prise en compte par le coefficient de stabilité. C’est-à-dire qu’un même test est passé au même groupe d’individus à deux moments différents (la méthode test - retest) et la corrélation entre les deux séries de mesure est calculée. Cette corrélation est le coefficient de stabilité (ou de constance). Ce coefficient est assez ambigu à cause des erreurs aléatoires. Le sujet n’a pas le même comportement ou le même état d’esprit entre ces 2 moments test-retest. Les fluctuations aléatoires de l’état du sujet influencent les mesures. De ce fait le coefficient de stabilité est un indice assez ambigu et doit être considéré avec prudence. Il peut être un coefficient de fiabilité (fidélité) si l’intervalle test-retest est court, pour éviter au maximum la modification temporelle du sujet.
_________________________
NB. Pour bien répondre, il faut :
- citer les 2 types d’erreurs ;
- expliquer les 3 sources d’erreurs.
- définir le coefficient de stabilité et démontrer que c’est un indice ambigu.
Qu’est ce que l’étalonnage et à quoi sert-il ? Expliquez plus précisément les notions de notes brutes et notes normalisées.
(8 points)
Le score obtenu par un sujet à un test constitue une NOTE BRUTE. Cette note brute doit être comparée aux scores des sujets d’une POPULATION DE RÉFÉRENCE pour avoir une signification. La population de référence est constituée d’un échantillon représentatif d’une population définie et homogène. Le procédé qui permet cette comparaison est L’ETALONNAGE. L’étalonnage est la construction d’une échelle de notation standard à partir des résultats obtenus dans un échantillon représentatif d’une population de référence. Il permet de transformer un score brut en NOTES STANDARDS ou ÉTALONNÉES. Ainsi le sujet se situe par rapport au GROUPE DE RÉFÉRENCE. Les notes standards ou notes étalonnées sont directement comparables et permettent de faire des COMPARAISONS INTERINDIVIDUELLES et INTRAINDIVIDUELLES.
Il existe deux systèmes d’étalonnage :
1) Le quantilage et 2) Les échelles normalisées
- Le quantilage consiste à regrouper les résultats à un test d’une population dans des classes de même effectif. C’est à dire que la distribution des notes brutes des sujets à un test est fractionnée en une série de classes ayant le même effectif et dont les limites sont des QUANTILES : centiles pour 100 catégories, déciles pour 10 catégories… Les notes dans un premier temps sont ordonnées selon un ordre croissant puis regroupées en CLASSES. Ainsi, les sujets les plus efficients d’un test seront situés dans le premier interdécile et les plus mauvais se situeront dans le dernier. On pourra alors indiquer dans quel interdécile, un nouveau sujet qui passe le test se positionne.
- L’échelle normalisée, deuxième système d’étalonnage, utilise les propriétés de la distribution normale. La caractéristique principale est que les classes sont définies de telle sorte que les effectifs (fréquence) qui correspondent à chaque classe soient conformes aux fréquences de la distribution théorique de Laplace-Gauss dite aussi DISTRIBUTION NORMALE. La distribution normale est une distribution symétrique en forme de « cloche ». On va donc transformer les valeurs de la variable en distance en écart-type par rapport à la moyenne (notes z). Les proportions de chaque classe dans une distribution normale sont lues dans une table selon le nombre de classes constituées. Le psychologue dispose d’un tableau d’équivalence entre notes brutes et notes standards dans les manuels des statistiques. Il peut alors estimer la proportion des sujets de la population capables d’obtenir un résultat supérieur au sien afin de déterminer s’il est dans les limites de la « normalité » ou pas.
Quels sont les niveaux de mesure utilisés en psychologie ?
6 points
> > > Faire une introduction de quelques lignes en ciblant la question. Par exemple pourquoi est-il important d’avoir différents niveaux de mesure ? (pouvoir attribuer aux choses les propriétés des nombres et ainsi utiliser des statistiques) ou la définition de mesurer (attribuer des nombres aux choses).
Annoncer votre plan (vous allez aborder les échelles nominales, ordinales et les échelles d’intervalles, ces échelles étant hiérarchisées). Dans cette partie il faut présenter une synthèse de ces 3 échelles
◻️ Échelles nominales : Ce sont des échelles qui permettent de classer des sujets dans des catégories qui sont exclusives. Chaque observation se trouve dans une catégorie et une seule. On les utilise quand on peut dire qu’un sujet appartient à une catégorie, un autre sujet une autre catégorie mais on ne peut pas dire que l’un des sujets est plus quelque chose que l’autre sujet. Tous les sujets d’une même classe sont considérés comme équivalent. La seule propriété des catégories est qu’elles sont toutes différentes les unes des autres. Ce sont des échelles non ordonnées (par exemple, on désigne la classe des hommes par 1 et la classe des femmes par 2 mais ces chiffres sont arbitraires et peuvent être remplacés par des lettres par exemple). Les statistiques utilisées sur ces échelles sont le mode, l’entropie et le chi carré.
◻️ Échelles ordinales : Ces échelles possèdent les propriétés des échelles nominales, mais les objets d’une catégorie ne sont pas seulement différents de ceux d’une autre catégorie, il existe entre les diverses catégories de l’échelle une relation d’ordre. Pour construire une échelle ordinale, il faut pouvoir partionner l’ensemble des observations); ordonner les classe et pourvoir dire que si AC. Par exemple, les échelles de jugement: Très bon, Moyen, Mauvais, Très Mauvais.
◻️ Échelles d’intervalles : Ce sont des échelles qui possèdent toutes les propriétés des échelles ordinales et qui permettent en plus de déterminer les distances entre les observations et comparer ces distances. Dans l’échelle d’intervalle, la mesure implique, en plus des propriétés précédentes, d’introduire une distance entre les observations. Cette unité de distance est stable tout au long de l’échelle. Il y a égalité entre les intervalles. Dans les tests d’intelligence, les intervalles relèvent d’une convention.
Conclusion de quelques lignes toujours en lien avec la question posée. Par exemple dire qu’il est indispensable de différencier ces trois échelles pour choisir les statistiques appropriées.
Définissez les notions de sensibilité, de fidélité et d’homogénéité
◻️ Notion de sensibilité : Il s’agit de la capacité que possèdent les items d’un test à différencier les sujets. Elle est liée au niveau de difficulté des items. Leur niveau de difficulté étant déterminé par la fréquence de réussite dans une population. Les items faciles et difficiles correspondent à la différenciation la plus faible. Toutefois les items difficiles sont intéressants pour les sélections sévères. Les items de difficulté moyenne (50% de réussite) offrent la différenciation des individus la plus forte. La différenciation peut également être réalisée sur la vitesse d’exécution d’un test. On parle alors de tests de “vitesse” alors que quand la différenciation résulte de la difficulté, on parle de tests de “puissance.
◻️ Notion de fidélité : Une mesure est dite fidèle (fiable) lorsqu’elle n’est pas entachée d’erreurs trop importantes d’où l’utilité de calculer un coefficient de fidélité. Deux types d’erreurs de mesure sont courantes : les erreurs systématiques et les erreurs aléatoires. Les erreurs systématiques se manifestent toujours dans le même sens et avec la même intensité lors de la répétition de la mesure tandis que les erreurs aléatoires diffèrent d’une passation, elles apparaissent avec des intensités et des directions différentes. Le coefficient de fidélité ne s’intéresse qu’aux erreurs aléatoires c’est à dire cherchera à déterminer si les différences individuelles de score au test peuvent être attribuées aux caractéristiques des sujets ou si elles sont dues à des erreurs lors des passations, erreurs sur le choix des items, dues à des observateurs différents, des conditions différentes lors des passages successifs….. Un coefficient de corrélation entre la mesure à un test et la mesure au retest est effectué. Si le coefficient est proche de 1 alors l’erreur est peu importante si au contraire elle est proche de 0 le test n’est pas fiable puisqu’il ne permet pas d’évaluer la mesure vraie! Dans ce cas, le chercheur doit construire un autre test.
◻️ Notion d’homogénéité : Le but est de savoir si un test mesure bien la même dimension dans ses différentes parties ou items. Diverses méthodes sont utilisées comme la méthode des formes parallèles (deux versions d’un même test sont présentées) ou la méthode du partage par moitié ( un même test est présenté mais coupé en deux parties), ainsi que différents coefficients (α de Cronbach, par exemple). Le coefficient de Cronbach est le plus utilisé. La méthode des moitiés consiste à calculer la corrélation entre deux parties d’un test : avec les items pairs d’une part et les items impairs de l’autre, ou bien en répartissant les items en deux parties équivalentes selon le degré de difficulté. Si la corrélation est forte, on peut dire que l’instrument mesure bien une même dimension au travers de ces différentes questions.
◻️ La méthode item-score considère que l’homogénéité d’un test est d’autant plus élevée que le résultat de chaque item est fortement lié au score total. Ces méthodes permettent de calculer un coefficient d’équivalence (dans le cas de la méthode des formes parallèles), et un coefficient d’homogénéité (dans le cas de la méthode des moitiés) permettant de mesurer la corrélation entre les deux mesures réalisées. L’indice de Cronbach traduit un degré d’homogénéité d’autant plus élevé que sa valeur est proche de 1.
Que veut dire valeur médiane ?
La médiane est un indice de tendance centrale. Elle coupe une distribution en deux parties égales, en son milieu. Elle permet d’avoir une idée du nombre d’observations se situant audessus et endessous de sa valeur.
Que veut dire fidélité test-retest ?
Un coefficient de corrélation entre la mesure à un test et la mesure au retest est effectué. Si le coefficient est proche de 1 alors l’erreur est peu importante si au contraire elle est proche de 0 le test n’est pas fiable puisqu’il ne permet pas d’évaluer la mesure vraie! Dans ce cas, le chercheur doit construire un autre test.
Quelle est la fonction de la standardisation ?
La fonction de la standardisation est de permettre de comparer les sujets entre eux a partir des resultats a une epreuve. L’epreuve doit repondre a des regles strictes de passation et de cotation. Un test par exemple a une standardisation maximale. Le psychologue doit suivre le manuel de passation (ordre des epreuves par exemple) et de cotation (evaluation aux differents items).
Expliquez cette phrase : « dans les groupes hétérogènes, …,la variabilité interindividuelle est plus importante et les individus sont mieux différenciés les uns aux autres ;…la fraction de variance attribuable à l’erreur sera plus faible [que pour les groupes homogènes].
(10 points)
L’homogénéité du groupe sur lequel est appliqué le test est un facteur qui affecte la fidélité du test. Un test est dit fidèle (ou fiable) lorsque la mesure n’est pas entachée d’erreurs trop importantes. Il y a deux types d’erreurs de mesure : les erreurs systématiques et les erreurs aléatoires. L’erreur systématique se répète à chaque mesure dans le même sens et avec la même intensité et l’erreur aléatoire se répète avec une intensité différente et pas toujours dans le meme sens. Les coefficients de fidélité fournissent une indication sur l’importance des erreurs. L’erreur est d’autant plus grande que les coefficients sont faibles (chiffre proche de 0), par contre l’erreur est faible si le chiffre est proche de 1 (voir définition de corrélation). Le but est de déterminer si les différences individuelles de score au test peuvent être attribuées aux caractéristiques des sujets ou/et si elles sont dues à des erreurs lors des passations.
Deux facteurs affectent la fidélité : l’homogénéité et la longueur du test.
- Si le groupe est homogène, les différences entre les individus sont limitées et les écarts de scores sont moins étendus. Dans ce cas, l’erreur aléatoire a un poids important, le coefficient de fidélité risque d’être réduit.
- Si le groupe est hétérogène, les différences entre les individus sont très importantes et les scores très dispersés. Dans ce cas, la somme de toutes les erreurs en réduit leur poids, le coefficient de fidélité sera plus élevé. Les erreurs seront neutralisées, moyennées, compensées et la fraction de variance attribuable à l’erreur sera plus faible. Il n’y a pas moins d’erreurs mais les erreurs se compensent.
Dans le choix d’items d’un test en construction, vaut-il mieux calculer un coefficient d’équivalence ou un un coefficient d’homogénéité ? Insistez sur les avantages et les inconvénients de ces 2 méthodes.
(10 points)
Le choix des items composant le test doit être cohérent avec la dimension que l’on cherche a étudier. Les items se présentent sous différents formats et le score de chaque item permet d’obtenir un score global. Pour savoir si le choix d’items n’introduit pas un biais dans le test, il existe deux méthodes de vérification pour valider le choix des items. La méthode des formes parallèles (coefficient d’équivalence) et la méthode du partage par moitié (split half, coefficient d’homogénéité). Avec la méthode des formes parallèles, le psychologue construit deux versions d’un même test (deux formes parallèles), les applique à un même groupe de sujets et calcule la corrélation entre les 2 séries de mesure. Le coefficient obtenu est le coefficient d’équivalence. Si le coefficient est élevé, cela indique que le choix d’items n’a pas d’incidence sur les résultats, et n’est donc pas une source d’erreur. En revanche, un coefficient faible indique que le choix d’items fausse le test. L’avantage de cette méthode est qu’il faut un grand nombre d’items ce qui garantit que le test mesure bien la dimension étudiée. L’inconvénient majeur est que les versions sont appliquées successivement et donc les scores peuvent être entachés d’erreurs (effet d’ordre). Pour palier à ce problème, il est possible d’avoir 2 versions d’un test mais cette méthode est coûteuse et longue car il faut construire deux formes du test. Avec la méthode du partage par moitie (split half), le psychologue utilise un seul test divisé en deux formes parallèles intriquées. La moitie des items (items pairs) forment un test, l’autre moitie (items impairs) un autre test. Un coefficient d’homogénéitė est alors calculé en comparant ces 2 moitiés. Le problème majeur est que la longueur du test diminue de moitié et que cela affecte la fidélité. Par ailleurs, le choix des items en pairs et impairs peut entrainer d’autres biais (risque d’erreurs dans la partition des items). En revanche, le split half évite de construire 2 tests ce qui est moins coûteux. Le calcul du coefficient α de Cronbach est une autre méthode utilisée fréquemment pour évaluer l’homogénéité d’un test.
Définitions de l’observation
Dictionnaire (Petit Robert) :
Considérer avec attention, afin de connaître, d’étudier. Un procédé scientifique d’investigation, de constatation attentive des phénomènes tels qu’ils se produisent, sans volonté de les modifier.
Etymologie : apparemment du latin “servare” : conserver.
»> L’observation est l’investigation d’un phénomène sans que le chercheur intervienne dans le déroulement du phénomène pour en varier les facteurs, auquel cas il expérimente.
Il existe plusieurs procédures d’observation placées sur un continuum. D’un côté, on place l’observation libre et de l’autre, l’observation contrainte. Dans l’observation libre, l’observateur n’a aucune règle, en revanche dans l’observation contrainte qui correspond à la situation de test, le psychologue doit respecter des consignes très précises de passation et de cotation. Ces deux méthodes sont complémentaires.
Quels sont les différents tests que l’on peut distinguer en psychologie ?
(6 Points
Il existe de nombreux tests qui peuvent être classés en 3 catégories :
1) Tests d’aptitude :
Ces tests permettent d’évaluer le fonctionnement intellectuel, son développement et son efficience. Certains sont utilisés pour savoir si le sujet réussira une formation ou une activité professionnelle (sélection).
2) Tests de personnalité :
2 classes sont à distinguer :
a) l’une porte sur l’évaluation des conduites du sujet (test dits OBJECTIFS) tandis que l’autre porte sur l’évaluation des conduites et notamment verbales du sujet face à un materiel ambigu (tests dits PROJECTIFS). Le sujet projette sa personnalité face à ce matériel ambigu.
3) Tests de connaissance où le psychologue va tester les connaissances scolaires ou professionnelles du sujet, après une formation par exemple. Ces tests peuvent etre appliqués individuellement ou collectivement.
Qu’est-ce qu’une dimension ? Quelles sont les méthodes utilisées pour considérer qu’une dimension existe au sein d’un test ?
(10 points)
Le choix des items composant le test doit être cohérent avec la dimension que l’on cherche à étudier. Les items se présentent sous différents formats et le score de chaque item permet d’obtenir un score global. Les items doivent donc appartenir à une même dimension pour les sommer. Plusieurs méthodes sont utilisées pour considérer qu’une dimension existe au sein d’un test :
◻️ La corrélation entre chaque item et le test (corrélation item-test) qui permet de calculer la part de variance commune au test et à l’item. Le score à l’item doit être lié au score au test.
◻️ Le calcul d’un indice de discrimination qui est lié à la difficulté de l’item. Il faut des items de difficulté moyenne pour discriminer les sujets. ◻️ Les interrelations entre tous les items : L’analyse va porter sur les corrélations entre tous les items. Si les corrélations sont proches de 1, alors les items sont liés. Une analyse factorielle peut être réalisée pour évaluer la saturation des différents items autour d’un même facteur.
Ces différentes méthodes vont permettre de supprimer des items et ne garder que ceux qui évaluent la même dimension.
Pourquoi dit-on que la distribution des scores d’un test est approximativement normale ?
(4 points)
Les éléments importants à aborder :
1) le constructeur du test a procédé de telle sorte qu’il en soit ainsi ;
2) difficulté moyenne des items ;
3) notion de normalisation des distributions ou notion d’étalonnage.
La distribution des scores d’un test est approximativement normale puisque le constructeur a procédé de telle sorte qu’il en soit ainsi. Un test est une épreuve standardisée, la passation et la cotation étant toujours identiques. Les scores brutes aux épreuves ne sont pas utilisés car ils ne permettent pas de comparer les performance du sujet avec les autres sujets du groupe de référence. Le psychologue utilise alors les notes z qui correspondent aux notes après normalisation. La comparaison est alors possible grâce a l’étalonnage. L’étalonnage est la construction d’une échelle de notation standard à partir des résultats obtenus dans un échantillon représentatif d’une population de référence. Il permet de transformer un score brut en notes standards ou étalonnées. Ainsi le sujet se situe par rapport au groupe de référence. Les notes standards ou notes étalonnées sont directement comparables et permettent de faire des comparaisons interindividuelles et intraindividuelles. Une fois qu’un échantillon représentatif de la population de référence définie est constitué et que les sujets de l’échantillon ont passé le test, on peut procéder a l’étalonnage de leurs scores. On pourra ainsi determiner pour une population donnée quelles notes au test correspondent à quel rang. Les items aux différentes épreuves qui constituent le test doivent être de difficulté moyenne permettant ainsi une bonne discrimination des sujets. Deux techniques d’étalonnage sont principalement utilisées : les quantilages et les échelles normalisées.
Comment vérifier que le choix d’items d’un test correspond bien à l’idée que l’on se fait de la dimension ?
(8 points)
Les éléments importants à aborder :
1) coefficient d’équivalence (méthode des formes parallèles) ou coefficient d’homogénéité (méthode du split half) ;
2) source d’erreur ;
3) notion de dimension.
Le choix des items composant le test doit être cohérent avec la dimension que l’on cherche à étudier . Une dimension existe lorsque les items sont regroupés et donc homogènes (cf p 333 graphique). Les items se présentent sous différents formats et le score de chaque item permet d’obtenir un score global. Il existe deux méthodes de verification pour valider le choix des items. La méthode des formes parallèles (coefficient d’équivalence) et la méthode du partage par moitié (split half, coefficient d’homogénéité). Avec la méthode des formes parallèles, le psychologue construit deux versions d’un même test (deux formes parallèles), les applique à un même groupe de sujets et calcule la corrélation entre les 2 séries de mesure. Le coefficient obtenu est le coefficient d’équivalence. Si le coefficient est élevé, cela indique que le choix d’items n’a pas d’incidence sur les résultats, et n’est donc pas une source d’erreur. En revanche, un coefficient faible indique que le choix d’items fausse le test. L’avantage de cette méthode est qu’il faut un grand nombre d’items ce qui garantit que le test mesure bien la dimension étudiée. L’inconvénient majeur est que les versions sont appliquées successivement et donc les scores peuvent être entachés d’erreurs (effet d’ordre). Pour palier à ce problème, il est possible d’avoir 2 versions d’un test mais cette méthode est coûteuse et longue car il faut construire deux formes du test. Avec la méthode du partage par moitié (split half), le psychologue utilise un seul test divisé en deux formes parallèles intriquées. La moitié des items (items pairs) forment un test, l’autre moitié (items impairs) un autre test. Un coefficient d’homogénéité est alors calculé en comparant ces 2 moitiés. Le problème majeur est que la longueur du test diminue de moitié et que cela affecte la fidélité. Par ailleurs, le choix des items en pairs et impairs peut entrainer d’autres biais (risque d’erreurs dans la partition des items). En revanche, le split half évite de construire 2 tests ce qui est au final moins coûteux. Le calcul du coefficient α de Cronbach est une autre méthode utilisée fréquemment pour évaluer l’homogénéité d’un test.