Testtheorie und Testkonstruktion 1 Flashcards
Was sind die 3 wesentlichen Gütekriterien psychologischer Tests und was bedeuten sie?
Objektivität:
- Ergebnis einer psychologischen Messung hängt nicht von Person ab die die Untersuchung durchgeführt hat
Reliabilität:
- Zuverlässigkeit und Messfehlerabhängigkeit psychologischer Messungen, je geringer Messfehler desto höher Reliabilität
Validität:
- gegeben wenn die Schlüsse die aufgrund der Messungen mit einem Erhebungsinstrument getroffen werden gültig sind
Was sind die wichtigsten Gemeinsamkeiten und Unterschiede zwischen psychologischen und physikalischen Messungen?
Gemeinsamkeiten:
- geht darum, Merkmal mit hoher Objektivität, Reliabilität und Validität zu messen
Unterschiede:
- bei der Erfassung psychologischer Merkmale gibt es häufig keinen allgemein akzeptierten Vergleichsstandard, den man zur Eichung von Messinstrumenten heranziehen könnte, weil häufig eine allgemein akzeptierte Definition eines Merkmals fehlt
- in Psychologie kann das interessierende Merkmal anhand eines einzelnen Messvorgangs häufig nur viel gröber messen als bei physikalischen Messungen
- es fehlen generell akzeptierte Maßeinheiten
Worin bestehen die Grundideen des Raschmodells?
- 1: geht von beobachtbaren dichotomen Antwortvariablen wie der Lösung vs. Nicht- Lösung einer Aufgabe aus
- 2: die Lösungswahrscheinlichkeiten aller betrachteten Aufgaben (Items) hängen von einer nicht direkt beobachtbaren (latenten) kontinuierlichen Merkmalsvariablen ab
- 3: Lösungswahrscheinlichkeit einer Aufgabe hängt sowohl von Aufgabenschwierigkeit als auch von Wert einer Peron auf der latenten Variable ab
- 4: Lösungswahrscheinlichkeit nimmt mit Zunahme der Werte auf der latente Variablen zu
- 5: die Abhängigkeit der Lösungswahrscheinlichkeit von der latenten Variablen wird durch eine Itemcharakteristik beschrieben
- 6: Im Raschmodell verlaufen alle Itemcharakteristiken parallel
- 7: Lösungswahrscheinlichkeiten aller Items hängen sowohl von Itemschwierigkeit als auch von Personenmerkmal ab
Wie ist ein psychologischer Test im weiteren Sine definiert?
Nach Krauth besteht ein Psychologischer Test
- aus einer Menge von reizen mit den zugehörigen zugelassenen Reaktionen
- d.h. aus einer Menge von manifesten Variablen
- und einer Vorschrift (Skala)
- die den Reaktionsmustern der manifesten Variablen Ausprägungen einer oder mehrerer latenter Variablen zuordnet
Welche Annahmen und Eigenschaften zeichnen psychometrische Modelle im Allgemeinen aus?
- 1: Verhalten wird als eine Funktion von Person und Aufgabe dargestellt
- 2: Merkmalsausprägungen einer Person auf einer latenten Variable zu schätzen
- 3: Ausprägungen der latenten Variablen nicht direkt beobachtbar
- 4: latente Variablen werden über Verknüpfung mit beobachtbaren Testwerten definiert
- 5: in welcher Weise das beobachtbare Verhalten von dem latenten Merkmal abhängt und warum die verschiedenen beobachtbaren Verhaltensweisen miteinander zusammenhängen
- 6: Zusammenhang zwischen den beobachtbaren Verhaltensweisen
- 7: Messmodelle für latente Merkmalsausprägungen
- 8: Grundlage um psychologische Tests zu konstruieren
Wie lauten die Gütekriterien psychologischer Tests und was bedeuten sie?
- 1: Skalierung: ist erfüllt, wenn die Testwerte, die man aufgrund von Verrechnungsvorschriften erhält, die empirischen Verhaltensrelationen adäquat abbilden
- 2: Normierung: Vorhandensein eines Bezugsystems, das es erlaubt, eine Merkmalsausprägung in Bezug auf die Verteilung des Merkmals in einer Referenzpopulation zu interpretieren
- 3: Testökonomie: erfüllt wenn Test wenige Ressourcen verbraucht
- 4: Nützlichkeit: erfüllt wenn das vom Test erfasste Merkmal praktische Relevanz besitzt, mehr Nutzen als Schaden
- 5: Zumutbarkeit: wenn Person in zeitlicher als auch in psychischer und körperlicher Hinsicht nicht unverhältnismäßig belastet wird
- 6: Unverfälschbarkeit: wenn Personen Testergebnis nicht durch Testverhalten verzerren können
- 7: Fairness: erfüllt wenn bestimmte Personen anhand der Testergebnisse nicht systematische benachteiligt werden
Welche Facetten der Validität lassen sich unterscheiden und was bedeuten sie?
- 1: Konstruktvalidität: wenn Testwerte im Sinne des zu erfassenden Konstrukts interpretiert werden können
- 2: Konvergente Validität: wenn Werte eines Tests hohe Zusammenhänge mit Werten eines anderen Tests zur Erfassung desselben Konstrukts aufweisen
- 3: Diskriminante Validität: wenn Werte eines Tests keine oder nur geringe Zusammenhänge mit Werten anderer Tests aufweisen die andere Konstrukte erfassen die von dem zu erfassenden Konstrukt unabhängig sein sollen
- 4: Inhaltsvalidität: ist ein Test wenn Items eine repräsentative Stichprobe von Items zur Erfassung des Konstrukts darstellen
- 5: Kriteriumsvalidität: Frage ob anhand des Tests Merkmale vorhergesagt werden können, die mit dem zu erfassenden Konstrukt zusammenhängen
- 6: Augenscheinvalidität: wenn einem Laien offensichtlich, welches Konstrukt gemessen werden soll
Welche Strategien zur Untersuchung der Konstruktvalidität gibt es und was bedeuten sie?
- 1: Analyse von gruppenunterschieden: bezieht sich darauf, ob sich aufgrund theoretischer Überlegungen erwartbare Gruppenunterschiede in den Konstruktausprägungen bestätigen lassen
- 2: Zusammenhangsanalyse mit anderen Tests: wird gemacht um zu überprüfen ob der Test mit anderen Tests die dasselbe oder ein ähnliches Konstrukt erfassen sollen zusammenhängt
- 3: Analyse der internen Struktur eines Tests: bezieht sich darauf ob Items eines Tests ein eindimensionales oder mehrdimensionales Konstrukt erfassen. Struktur des Tests muss theoretisch erwarteter Struktur eines Konstruktes entsprechen
- 4: Analyse der Stabilität und Veränderungen von Testwerten: untersucht ob sich Testwerte in theoriekonformer Weise verändern oder stabil bleiben
- 5: Prozessanalysen: Untersuchungen des Antwortprozesses. Methode des lauten Denkens
Was versteht man unter einem nomologischen Netzwerk?
- System miteinander verknüpfter Gesetze, die sich auf ein Konstrukt beziehen
- Gesetze können sich auf Zusammenhang zwischen mehreren beobachtbaren Variablen, zwischen Konstrukten und beobachtbaren variablen oder zwischen mehreren Konstrukten beziehen
- können probabilistischer oder deterministischer Natur sein
Welche Testkonstruktionsprinzipien lassen sich unterscheiden und wie geht man jeweils vor?
- 1: rationale Konstruktionsmethode:
Konstrukt wird zunächst definiert und daraufhin Items auf Grundlage theoretischer Überlegungen formuliert - 2: kriteriumsorientierte Konstruktionsmethode:
Zunächst werden spezifische Kompetenzen definiert
dann wird Itemuniversum festgelegt und daraus Zufallsstrichprobe gezogen - 3: induktive Konstruktionsmethode:
zunächst wird Itemsatz erstellt der möglichst repräsentativ Merkmalsbereich erfassen soll
dann wird Itemsatz durch dimensionsanalytische Verfahren (z.B. exploratorische Faktorenanalyse) reduziert
ein weiterer Ansatz ist der Prototypenansatz, bei dem Items danach ausgewählt werden wie typisch sie für das zu erfassende Konstrukt sind - 4: externale Konstruktionsmethode:
Items werden so ausgewählt, dass sie optimale Vorhersage eines Kriteriums (z.B. Gruppenzugehörigkeit) erlauben
Was versteht man unter einem Speed-, was unter einem Powertest?
Speedtest:
- Test bei dem es darum geht, wie schnell Aufgaben gelöst werden
- Aufgaben haben Zeitlimit
- relativ leichte Aufgaben da es um Messung der Leistungsgeschwindigkeit geht
Powertest:
- ohne Zeitlimit
- Aufgaben haben unterschiedliche Schwierigkeitsgrade, da es um Erfassung des Leistungsniveaus geht
Was versteht man unter Konversationsmaximen und welche unterscheidet man? Erklären sie deren Bedeutung.
Implizite Gesprächsnormen, die das Verhalten von Gesprächspartnern leiten
Grice unterscheidet 4 Konversationsmaximen für den Kontext kooperativer Gespräche:
- 1: Qualitätsmaxime: jede Äußerung soll wahr und belegbar sein
- 2: Quantitätsmaxime: Äußerung soll so viel Information wie nötig enthalten (nicht mehr nicht weniger)
- 3: Relevanzmaxime: sich auf wesentliche Aspekte beschränken
- 4: Klarheitsmaxime: sich klar und verständlich äußern
Was versteht man unter Reihenfolgeeffekten und welche unterscheidet man? Erklären sie deren Bedeutung.
Darunter versteht man den Umstand, dass sich die Anordnung von Items auf deren Beantwortung auswirkt
- 1: Ankereffekt: die Beantwortung einer vorhergehenden Frage wird als Vergleichsanker zur Beantwortung einer folgenden Frage genutzt
- 2: Konsistenz- oder Assimilationseffekte: Antwort auf eine zweite Frage fällt ähnlicher zur ersten aus als wenn man die Fragen getrennt stellen würde, um ein konsistentes Bild abzugeben
- 3: Kontrasteffekte: die Antwort auf zweite Frage weicht stärker von der ersten ab als wenn beide Fragen getrennt gestellt werden
- 4: Salienzeffekt: durch die Beantwortung einer ersten Frage verändert sich die Bewusstheit für bestimmten Sachverhalt was zu veränderter Einschätzung einer zweiten Frage führt
- 5: Primingeffekt: Effekte, bei denen die Vorgabe eines Items dazu führt, dass bestimmte Informationen erinnert werden, die dadurch schneller verfügbar sind
- 6: Subtraktionseffekt: Befragter schlussfolgert aus Tatsache, dass er eine erste Frage bereits beantwortet hat, dass die folgende Frage einen weiteren Aspekt erfragt und die Information zur ersten Frage unberücksichtigt bleiben soll, um Redundanz zu vermeiden
An welchen Empfehlungen sollte sich die Formulierung von Items orientieren?
- 1: einfach und kurz
- 2: konkret und verhaltensbezogen
- 3: neutral
- 4: eindeutig
- 5: nur ein Sachverhalt
- 6: einfach zugängliche Informationen
- 7: keine Suggestivfragen
- 8: keine Wertungen
- 9: keine Negationen
- 10: keine hypothetischen Fragen
Welche Antwortformate unterscheidet man und was bedeuten sie?
- freies offenes Antwortformat: Antwort ist in ihrer Ausgestaltung relativ frei
- gebundenes geschlossenes Antwortformat: Antwort ist hinsichtlich ihrer Gestaltung vorgegeben
- atypisches Antwortformat: beinhaltet alle übrigen Antwortformate