Testtheorie und Testkonstruktion 1 Flashcards by Isi Bell

Was sind die 3 wesentlichen Gütekriterien psychologischer Tests und was bedeuten sie?

Objektivität:
- Ergebnis einer psychologischen Messung hängt nicht von Person ab die die Untersuchung durchgeführt hat
Reliabilität:
- Zuverlässigkeit und Messfehlerabhängigkeit psychologischer Messungen, je geringer Messfehler desto höher Reliabilität
Validität:
- gegeben wenn die Schlüsse die aufgrund der Messungen mit einem Erhebungsinstrument getroffen werden gültig sind

How well did you know this?

Not at all

Perfectly

Was sind die wichtigsten Gemeinsamkeiten und Unterschiede zwischen psychologischen und physikalischen Messungen?

Gemeinsamkeiten:
- geht darum, Merkmal mit hoher Objektivität, Reliabilität und Validität zu messen
Unterschiede:
- bei der Erfassung psychologischer Merkmale gibt es häufig keinen allgemein akzeptierten Vergleichsstandard, den man zur Eichung von Messinstrumenten heranziehen könnte, weil häufig eine allgemein akzeptierte Definition eines Merkmals fehlt
- in Psychologie kann das interessierende Merkmal anhand eines einzelnen Messvorgangs häufig nur viel gröber messen als bei physikalischen Messungen
- es fehlen generell akzeptierte Maßeinheiten

How well did you know this?

Not at all

Perfectly

Worin bestehen die Grundideen des Raschmodells?

1: geht von beobachtbaren dichotomen Antwortvariablen wie der Lösung vs. Nicht- Lösung einer Aufgabe aus
2: die Lösungswahrscheinlichkeiten aller betrachteten Aufgaben (Items) hängen von einer nicht direkt beobachtbaren (latenten) kontinuierlichen Merkmalsvariablen ab
3: Lösungswahrscheinlichkeit einer Aufgabe hängt sowohl von Aufgabenschwierigkeit als auch von Wert einer Peron auf der latenten Variable ab
4: Lösungswahrscheinlichkeit nimmt mit Zunahme der Werte auf der latente Variablen zu
5: die Abhängigkeit der Lösungswahrscheinlichkeit von der latenten Variablen wird durch eine Itemcharakteristik beschrieben
6: Im Raschmodell verlaufen alle Itemcharakteristiken parallel
7: Lösungswahrscheinlichkeiten aller Items hängen sowohl von Itemschwierigkeit als auch von Personenmerkmal ab

How well did you know this?

Not at all

Perfectly

Wie ist ein psychologischer Test im weiteren Sine definiert?

Nach Krauth besteht ein Psychologischer Test
- aus einer Menge von reizen mit den zugehörigen zugelassenen Reaktionen
- d.h. aus einer Menge von manifesten Variablen
- und einer Vorschrift (Skala)
- die den Reaktionsmustern der manifesten Variablen Ausprägungen einer oder mehrerer latenter Variablen zuordnet

How well did you know this?

Not at all

Perfectly

Welche Annahmen und Eigenschaften zeichnen psychometrische Modelle im Allgemeinen aus?

1: Verhalten wird als eine Funktion von Person und Aufgabe dargestellt
2: Merkmalsausprägungen einer Person auf einer latenten Variable zu schätzen
3: Ausprägungen der latenten Variablen nicht direkt beobachtbar
4: latente Variablen werden über Verknüpfung mit beobachtbaren Testwerten definiert
5: in welcher Weise das beobachtbare Verhalten von dem latenten Merkmal abhängt und warum die verschiedenen beobachtbaren Verhaltensweisen miteinander zusammenhängen
6: Zusammenhang zwischen den beobachtbaren Verhaltensweisen
7: Messmodelle für latente Merkmalsausprägungen
8: Grundlage um psychologische Tests zu konstruieren

How well did you know this?

Not at all

Perfectly

Wie lauten die Gütekriterien psychologischer Tests und was bedeuten sie?

1: Skalierung: ist erfüllt, wenn die Testwerte, die man aufgrund von Verrechnungsvorschriften erhält, die empirischen Verhaltensrelationen adäquat abbilden
2: Normierung: Vorhandensein eines Bezugsystems, das es erlaubt, eine Merkmalsausprägung in Bezug auf die Verteilung des Merkmals in einer Referenzpopulation zu interpretieren
3: Testökonomie: erfüllt wenn Test wenige Ressourcen verbraucht
4: Nützlichkeit: erfüllt wenn das vom Test erfasste Merkmal praktische Relevanz besitzt, mehr Nutzen als Schaden
5: Zumutbarkeit: wenn Person in zeitlicher als auch in psychischer und körperlicher Hinsicht nicht unverhältnismäßig belastet wird
6: Unverfälschbarkeit: wenn Personen Testergebnis nicht durch Testverhalten verzerren können
7: Fairness: erfüllt wenn bestimmte Personen anhand der Testergebnisse nicht systematische benachteiligt werden

How well did you know this?

Not at all

Perfectly

Welche Facetten der Validität lassen sich unterscheiden und was bedeuten sie?

1: Konstruktvalidität: wenn Testwerte im Sinne des zu erfassenden Konstrukts interpretiert werden können
2: Konvergente Validität: wenn Werte eines Tests hohe Zusammenhänge mit Werten eines anderen Tests zur Erfassung desselben Konstrukts aufweisen
3: Diskriminante Validität: wenn Werte eines Tests keine oder nur geringe Zusammenhänge mit Werten anderer Tests aufweisen die andere Konstrukte erfassen die von dem zu erfassenden Konstrukt unabhängig sein sollen
4: Inhaltsvalidität: ist ein Test wenn Items eine repräsentative Stichprobe von Items zur Erfassung des Konstrukts darstellen
5: Kriteriumsvalidität: Frage ob anhand des Tests Merkmale vorhergesagt werden können, die mit dem zu erfassenden Konstrukt zusammenhängen
6: Augenscheinvalidität: wenn einem Laien offensichtlich, welches Konstrukt gemessen werden soll

How well did you know this?

Not at all

Perfectly

Welche Strategien zur Untersuchung der Konstruktvalidität gibt es und was bedeuten sie?

1: Analyse von gruppenunterschieden: bezieht sich darauf, ob sich aufgrund theoretischer Überlegungen erwartbare Gruppenunterschiede in den Konstruktausprägungen bestätigen lassen
2: Zusammenhangsanalyse mit anderen Tests: wird gemacht um zu überprüfen ob der Test mit anderen Tests die dasselbe oder ein ähnliches Konstrukt erfassen sollen zusammenhängt
3: Analyse der internen Struktur eines Tests: bezieht sich darauf ob Items eines Tests ein eindimensionales oder mehrdimensionales Konstrukt erfassen. Struktur des Tests muss theoretisch erwarteter Struktur eines Konstruktes entsprechen
4: Analyse der Stabilität und Veränderungen von Testwerten: untersucht ob sich Testwerte in theoriekonformer Weise verändern oder stabil bleiben
5: Prozessanalysen: Untersuchungen des Antwortprozesses. Methode des lauten Denkens

How well did you know this?

Not at all

Perfectly

Was versteht man unter einem nomologischen Netzwerk?

System miteinander verknüpfter Gesetze, die sich auf ein Konstrukt beziehen
Gesetze können sich auf Zusammenhang zwischen mehreren beobachtbaren Variablen, zwischen Konstrukten und beobachtbaren variablen oder zwischen mehreren Konstrukten beziehen
können probabilistischer oder deterministischer Natur sein

How well did you know this?

Not at all

Perfectly

Welche Testkonstruktionsprinzipien lassen sich unterscheiden und wie geht man jeweils vor?

1: rationale Konstruktionsmethode:
Konstrukt wird zunächst definiert und daraufhin Items auf Grundlage theoretischer Überlegungen formuliert
2: kriteriumsorientierte Konstruktionsmethode:
Zunächst werden spezifische Kompetenzen definiert
dann wird Itemuniversum festgelegt und daraus Zufallsstrichprobe gezogen
3: induktive Konstruktionsmethode:
zunächst wird Itemsatz erstellt der möglichst repräsentativ Merkmalsbereich erfassen soll
dann wird Itemsatz durch dimensionsanalytische Verfahren (z.B. exploratorische Faktorenanalyse) reduziert
ein weiterer Ansatz ist der Prototypenansatz, bei dem Items danach ausgewählt werden wie typisch sie für das zu erfassende Konstrukt sind
4: externale Konstruktionsmethode:
Items werden so ausgewählt, dass sie optimale Vorhersage eines Kriteriums (z.B. Gruppenzugehörigkeit) erlauben

How well did you know this?

Not at all

Perfectly

Was versteht man unter einem Speed-, was unter einem Powertest?

Speedtest:
- Test bei dem es darum geht, wie schnell Aufgaben gelöst werden
- Aufgaben haben Zeitlimit
- relativ leichte Aufgaben da es um Messung der Leistungsgeschwindigkeit geht
Powertest:
- ohne Zeitlimit
- Aufgaben haben unterschiedliche Schwierigkeitsgrade, da es um Erfassung des Leistungsniveaus geht

How well did you know this?

Not at all

Perfectly

Was versteht man unter Konversationsmaximen und welche unterscheidet man? Erklären sie deren Bedeutung.

Implizite Gesprächsnormen, die das Verhalten von Gesprächspartnern leiten
Grice unterscheidet 4 Konversationsmaximen für den Kontext kooperativer Gespräche:

1: Qualitätsmaxime: jede Äußerung soll wahr und belegbar sein
2: Quantitätsmaxime: Äußerung soll so viel Information wie nötig enthalten (nicht mehr nicht weniger)
3: Relevanzmaxime: sich auf wesentliche Aspekte beschränken
4: Klarheitsmaxime: sich klar und verständlich äußern

How well did you know this?

Not at all

Perfectly

Was versteht man unter Reihenfolgeeffekten und welche unterscheidet man? Erklären sie deren Bedeutung.

Darunter versteht man den Umstand, dass sich die Anordnung von Items auf deren Beantwortung auswirkt

1: Ankereffekt: die Beantwortung einer vorhergehenden Frage wird als Vergleichsanker zur Beantwortung einer folgenden Frage genutzt
2: Konsistenz- oder Assimilationseffekte: Antwort auf eine zweite Frage fällt ähnlicher zur ersten aus als wenn man die Fragen getrennt stellen würde, um ein konsistentes Bild abzugeben
3: Kontrasteffekte: die Antwort auf zweite Frage weicht stärker von der ersten ab als wenn beide Fragen getrennt gestellt werden
4: Salienzeffekt: durch die Beantwortung einer ersten Frage verändert sich die Bewusstheit für bestimmten Sachverhalt was zu veränderter Einschätzung einer zweiten Frage führt
5: Primingeffekt: Effekte, bei denen die Vorgabe eines Items dazu führt, dass bestimmte Informationen erinnert werden, die dadurch schneller verfügbar sind
6: Subtraktionseffekt: Befragter schlussfolgert aus Tatsache, dass er eine erste Frage bereits beantwortet hat, dass die folgende Frage einen weiteren Aspekt erfragt und die Information zur ersten Frage unberücksichtigt bleiben soll, um Redundanz zu vermeiden

How well did you know this?

Not at all

Perfectly

An welchen Empfehlungen sollte sich die Formulierung von Items orientieren?

1: einfach und kurz
2: konkret und verhaltensbezogen
3: neutral
4: eindeutig
5: nur ein Sachverhalt
6: einfach zugängliche Informationen
7: keine Suggestivfragen
8: keine Wertungen
9: keine Negationen
10: keine hypothetischen Fragen

How well did you know this?

Not at all

Perfectly

Welche Antwortformate unterscheidet man und was bedeuten sie?

freies offenes Antwortformat: Antwort ist in ihrer Ausgestaltung relativ frei
gebundenes geschlossenes Antwortformat: Antwort ist hinsichtlich ihrer Gestaltung vorgegeben
atypisches Antwortformat: beinhaltet alle übrigen Antwortformate

How well did you know this?

Not at all

Perfectly

Wie ist die Itemschwierigkeit bei dichotomen Antwortvariablen definiert?

Bei einer dichotomen Variablen, die die Werte 0 und 1 annehmen kann
Wahrscheinlichkeit, mit der Variable Wert 1 annimmt

Wie ist Yules Q als Assoziationsmaß für dichotome Variablen definiert und welche Vorteile weist dieser Koeffizient auf?

Verhältnis aus Differenz der Wahrscheinlichkeiten konkordanter und diskordanter Paare
geteilt durch Summe der Wahrscheinlichkeiten konkordanter und diskordanter Paare
Konkordantes Paar: wenn Person auf beiden Items der anderen Person überlegen ist
Diskordantes Paar: wenn Person der anderen Person auf einem überlegen, auf dem anderen unterlegen ist
Q-Koeffizient hat Vorteil, dass Höhe seines Wertes von Verteilung beider Variablen unabhängig ist

Durch welche Annahmen wird das Rasch- Modell definiert und was bedeuten diese?

Wird definiert durch die Annahme der Rasch-Homogenität und die bedingte stochastische Unabhängigkeit
Rasch-Homogenität bedeutet, dass die bedingte Wahrscheinlichkeit, dass eine beobachtbare Variable den Wert 1 annimmt, eine Funktion einer latenten Variablen n und eines Itemparameters ai ist
Stochastische Unabhängigkeit bedeutet, dass für jede Ausprägung der latenten Variablen n die beobachtbaren Yi stochastisch unabhängig sind

Welche Methoden zur Schätzung der Itemparameter können beim Rasch-Modell herangezogen werden?

1: unbedingte Maximum-Likelihood-Schätzung
2: bedingte Maximum-Likelihood-Schätzung
3: marginale Maximum-Likelihood-Schätzung
4: paarweise Schätzmethoden

Welche testbaren Konsequenzen impliziert das Rasch-Modell und wie können diese überprüft werden?

1: Gleichheit der Itemparameter in Subpopulationen:
grafischer Modelltest
Likelihood-Quotienten-Test
Wald-Test
Mischverteilungs-Rasch-Analyse
2: Implikation für die Wahrscheinlichkeitsverteilung der Antwortmuster:
Pearson-x²-Test
Likelihood-Quotienten-Test
3: Gleichheit der Personenwerte in reduzierten Rasch-Modellen:
Martin-Löf-Test

Wonach lassen sich testtheoretische Modelle unterscheiden?

1: beobachtbare Variablen, latente Variablen
2: Latent-Class-Analyse: kategorial manifeste Variablen, kategorial latente Variablen
3: latente Profilanalyse: kontinuierlich manifeste Variablen, kategorial latente Variablen
4: Latent-Trait-Modelle: kontinuierlich latente Variable, kategorial manifeste Variablen und kontinuierlich manifeste Variablen

Was versteht man unter einem kriteriumsorientierten Test? Wie geht man bei seiner Konstruktion vor?

kriteriumsorientiert wenn:
- inhaltsvalide
- Erfassung der Fähigkeit einer Person
- Person wird anhand Fähigkeitsausprägung Klasse von Personen zugeordnet

Konstruktion eines Kriteriumsorientierten Tests:
- Definieren der Fähigkeiten
- Bestimmung eines Itemuniversums zur Erfassung dieser Fähigkeiten
- Zufallsauswahl von Items aus diesem Itemuniversum

Was versteht man unter freien Antwortformaten? Welche Formen unterscheidet man?

offene Fragen
keine Antwortalternativen vorgegeben
man unterscheidet Kurzsatzaufgaben und Ergänzungsaufgaben
Kurzsatzaufgaben: Proband muss selbst formulierte Antwort geben, die von Ein-Wort-Sätzen bis hin zu kurzen Essays reichen kann
Ergänzungsaufgabe: eine Vorgabe die zu vervollständigen ist, wobei die Art der Ergänzung eng eingegrenzt ist

Was versteht man unter gebundenen Antwortformaten? Welche Formen unterscheidet man?

eine Reihe unterschiedlich strukturierter Antwortvorgaben
Ordnungsaufgaben: herstellen von Beziehungen zwischen vorgegebenen Elementen/Ordnung
Zuordnungsaufgaben (vorgegebene Elemente einander Zuordnen)
Umordnungsaufgaben (Bilden einer sinnvollen Reihenfolge)
Auswahlaufgaben: auswählen einer Kategorie
Dichotom
Mehrkategoriell (geordnet/ungeordnet)

Was versteht man unter atypischen Antwortformaten? Bitte nennen sie ein konkretes Beispiel.

- gewisse Eigenständigkeit der Antwortformate - sehen oft Kombinationen mehrerer Antwortformate oder sehr spezifische Reaktionen vor - z.B. Diagnose einer Apraxie bei der Patienten gebeten werden bestimmte Gesten nachzuahmen

Was ist bei der Konstruktion von Multiple-Choice-Tests zu beachten?

- Distraktoren(falsche Antwortvorgaben) müssen so gestaltet werden, dass Personen, die die richtige Antwort nicht wissen, nicht aus anderen Merkmalen erschließen können, dass es sich um Distraktoren handelt - sollten von Unwissenden für gleich wahrscheinlich richtig wie die richtige Antwort eingeschätzt werden

Wie können abweichende Items und abweichende Personen im Rasch-Modell identifiziert werden?

anhand von Residualmaßen

Wodurch ist das zweiparametrische logistische Modell gekennzeichnet?

- die Lösungswahrscheinlichkeit eines Items hängt von der Differenz aus der latenten Variablen und einem Schwierigkeitsparameter ab, die mit einem Diskriminationsparameter multipliziert wird - Items können sich sowohl in ihrer Schwierigkeit, als auch in ihrer Diskriminationsfähigkeit unterscheiden

Wodurch ist das dreiparametrische logistische Modell gekennzeichnet?

- die Items können sich in ihrer Schwierigkeit, ihrer Diskriminationsfähigkeit und im Rateparameter unterscheiden

Wie ist die Trennschärfe definiert und wie kann sie bei dichotomen Variablen bestimmt werden?

- Korrelation eines Items mit der Testwertvariablen - punkt-biserale Korrelation biserale Korrelation - Part-Whole-Korrektur: man nimmt Item aus Summierung heraus bzw. korrigiert Korrelationskoeffizienten