Testtheorie und Testkonstruktion 1 Flashcards

1
Q

Grundfragen der Testtheorie und Testkonstruktion

o Psychol. Messungen (!), Psychol. Test; Grundzüge des Raschmodells

A
  1. Bei Erfassung psychol Merkmale gibts keine allgemein akzeptierten Vergleichsstandards („golden standards“)
    > Häufig fehlt allg akzeptierte Definition eines Merkmals + keine normierten Maßeinheiten wie zB bei Größenmessung
    > Ob Messinstrument misst, was es messen soll => Umfangreiche Studien nötig
  2. In Psychologie kann man interessierendes Merkmal anhand einzelnen Messvorgangs häufig nur sehr viel gröber messen
    > Bsp Intelligenz: Anhand einzelner Aufgabe kann man Personen nur zwei Gruppen zuordnen => Aufgabe (nicht) gelöst
    > Zur feineren Bestimmung müssen mehrere Aufgaben bearbeitet werden (Frage, ob versch Aufg dasselbe Merkmal messen oder versch)
    - Präzision: Wie viele Aufg stellt man, ähnlich oder unterschiedlich?
    > Mathematische Modelle entwickelt, d der Konstruktion u Analyse von Erfassungsmethoden in Psychologie zugrunde gelegt werden können
    - Teildisziplin d Psychologie, d sich mit Messung psychol Merkmale beschäftigt => Psychometrie
    > Psychometr Modelle erlauben es zu überprüfen, ob versch Aufgaben dasselbe Merkmal messen u mit welcher Präzision
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Grundfragen der Testtheorie und Testkonstruktion

o Psychol. Messungen, Psychol. Test (!); Grundzüge des Raschmodells

A

3 Komponenten ergeben psychol Test:

  1. Reize, d merkmalrelevantes Verhalten provozieren
  2. Reaktionsformen, anhand derer d Verhalten registriert werden kann
  3. Modell, in d beobachtete Reaktionen mit latentem Merkmal in Verbindung gesetzt werden u d Messung von latenten Merkmalsausprägungen ermöglicht
  • Je nach Art d Reize (Items) lassen sich unter Begriff Test versch Erfassungsmethoden subsumieren, zB Tests zur Messung spezifischer Leistungen (Power- (=> Item-Response) u Speedtest), Fragebögen zur Erfassung von Persönlichkeitsmerkmalen, Einstellungen oder Interessen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Grundfragen der Testtheorie und Testkonstruktion

o Psychol. Messungen, Psychol. Test; Grundzüge des Raschmodells (!)

A

193 Kindern wurden zehn Bilder mit Emotionen vorgelegt, ihre Antworten
bewertet u die so erhaltenen Daten mit Rasch-Modell (1960) analysiert

  • Rasch-Modell geht von beobachtbaren dichotomen Antwortvariablen wie zB Lösung vs. Nichtlösung einer Aufg
  • Rasch-Modell zufolge hängen die Lösungswsks aller betrachteten Aufg (Items) von einer nicht direkt beobachtbaren (latenten) kontinuierlichen V ab
  • Lösungswahrscheinlichkeit einer Person in Bezug auf eine Aufgabe hängt sowohl von der Aufgabenschwierigkeit als auch dem Wert einer Person auf der latenten Variablen ab
    > Lösungswsk nimmt mit Zunahme der Werte auf latenter Variablen zu
  • Abhängigkeit der Lösungswsk von der latenten Variablen wird durch Itemcharakteristik beschrieben > Im Rasch-Modell verlaufen alle Itemcharakteristiken parallel
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Grundfragen der Testtheorie und Testkonstruktion

o Grundlegende Annahmen und Eigenschaften psychometrischer Modelle

A
  • In psychometr Modellen werden Konstrukte als latente Variablen definiert
    > Messmodelle (mathematische Formulierung des Konstrukts) zur Messung von Konstrukten, d auf testbaren Annahmen basieren (können zur Testkonstruktion herangezogen werden)
  • Verhaltensregistrierung: Um psychol Merkmal erfassen zu können, muss man charakteristisches Verhalten registrieren, indem es provoziert wird
  • Verhalten als Funktion von Person u Aufgabe: Registriertes Verhalten (zB (Nicht)Lösen einer Aufg) hängt von Pers- (zB Fähigkeit, Emotionen zu erkennen) u Aufgmerkmalen (zB Schwierigkeit) ab
  • Wsksaussagen: Aufgr von Personen- u Aufgmerkmalen kann man Verhalten nur mit best WSK vorhersagen => Psychometr Mod = Probabilistische Modelle
  • Schätzung d Merkmalsausprägung (MA): MA d Personen sind nicht bekannt, sondern müssen aus beobachtbarem Verhalten erschlossen werden (immer mit gewisser Unsicherheit behaftet)
  • Psychometr Modelle = Messmodelle (eine / mehrere Konstrukte werden mit beobachtbaren Variablen in Bez gesetzt)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Testtheorie

A
  • Teilgebiet der Psychometrie
    > Beschäftigt sich mit Entw u Formalisierung psychometr Modelle für psychol Tests u mit ihrer Nutzung für Konstruktion u Evaluation psychol Tests
  • Psychometr Modelle, die sich auf psychol Tests beziehen, daher => testtheoretische Modelle
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Grundfragen der Testtheorie und Testkonstruktion
o Unterscheidungsmerkmale testtheoretischer Modelle (!); Klassifikation psychometrischer Modelle; Begriffliche Abgrenzungen im Rahmen der Klassischen Testtheorie und Item-Response-Theorie

A
  • Mehrkategoriale manifeste V: Manifeste V weisen häufig mehr als zwei Werte (Kategorien) auf
    > Kategorien mit Ordnung (ordinalskaliert) o nicht (nominalskaliert)
  • Typisch für viele Bereiche d Psychol: V mit geordneten Antwortkategorien (zB Aussagen: überhaupt nicht, eher nicht, eher oder voll u ganz)
    > Zur Analyse solcher Items: Partial-Credit-Modell
  • Kontinuierliche manifeste V: Kommen in Psychodiagnostik vor, zB Reaktionszeitmessungen
  • Kontinuierliche latente V: Kann mit kategorialen o kontinuierlichen beobachtbaren Variablen verknüpft werden (Latent-Trait-Modelle)
    > Im Bereich Perskeitsdiagnostik o Einstellungsmessung geht man v latenten kontinuierl Merkm aus
  • Kategoriale latente V: Körperl Beschwerden in Klinischer Psychol (zB Kopfschmerzen, Rückenschmerzen, Herzrasen etc.)
    > Versch Beschwerden erfasst man je anhand eines dichot Items mit Kategorien liegt (nicht) vor (Beschwerdemuster = Typen = Ausprägungen einer LKV)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Grundfragen der Testtheorie und Testkonstruktion
o Unterscheidungsmerkmale testtheoretischer Modelle; Klassifikation psychometrischer Modelle (!); Begriffliche Abgrenzungen im Rahmen der Klassischen Testtheorie und Item-Response-Theorie

A
  • Psychometr Modelle lassen sich danach ordnen, welche Variablenart auf Ebenen d manifesten u latenten V vorliegt
  1. Latent-Class-Analyse (LV kategorial, MV kategorial) geordnet oder ungeordnete Variante (bezieht sich auf nominalskalierte Variablen)
  2. Latente Profilanalyse (LV kategorial, MV kontinuierlich)
  3. Latent-Trait-Modelle (LV kontinuierlich, MV kategorial (IRT => Rasch-Modell, Partial-Credit-Modell) / kontinuierlich (Generalisierte IRT))
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Grundfragen der Testtheorie und Testkonstruktion
o Unterscheidungsmerkmale testtheoretischer Modelle; Klassifikation psychometrischer Modelle; Begriffliche Abgrenzungen im Rahmen der Klassischen Testtheorie und Item-Response-Theorie (!)

A
  • Klassische Testtheorie (KTT) auch: Messfehlertheorie
    > Zsfassung für Modelle mit metrischen Antwortvariablen
  • Im Rahmen KTT wurden Modelle für kontinuierliche manifeste u kontinuierliche latente V entwickelt
  • Baut auf Zerlegung eines beobachtbaren Wertes in wahren - u Fehlerwert auf
    > Klassisch = Testtheor Ansatz, d Testtheorie von Beginn an geprägt hat
  • Klassische Testtheorie setzt kontinuierliche manifeste V voraus (auf Ebene einzelner Items in Psychol jedoch vglw selten)
    > Ausgangspkt klassisch testtheoretischer Analysen: Gesamter Testwert (zB Anzahl gelöster Aufg)

Item-Response-Theorie (IRT): Ausgangspkt sind einzelne Itemantworten (Ich habe einen Reiz und schaue mir die Antwort dazu an)
> Unter Begriff d IRT werden typischerweise Modelle für kategoriale manifeste u kontinuierliche latente V zsgefasst
- Auf Itemniveau metrische manifeste V wie zB Reaktionszeiten (wichtig für implizite Messverfahren)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wesentliche Schritte der Konstruktion psychologischer Tests
o Schritte der Testkonstruktion/-entwicklung (!); was ist zu beachten/nötig bzgl. der Festlegung eines Konstrukts, einer Fragestellung; Konstruktvalidität, Strategien zur Untersuchung der Konstruktvalidität

A

Schritte der Testentwicklung

  1. Festlegung des zu erfassenden Konstrukts
  2. Erstellung eines Itempools
  3. Auswahl eines Antwortformats
  4. Itemanalyse und -auswahl
  5. Testanalyse
  6. Skalierung und Normierung
  7. Testdokumentation
  8. Weitere Untersuchungen zur Güte des Verfahrens und Testrevision
  • Insbes Schritte 2 bis 5 können mehrmals durchlaufen werden u umfassen meist versch empir Erhebungen, bis Test vorliegt, der für Einsatz geeignet ist
  • Auch Tests d im Einsatz sind müssen regelm auf Gütekriterien überprüft werden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wesentliche Schritte der Konstruktion psychologischer Tests
o Schritte der Testkonstruktion/-entwicklung; was ist zu beachten/nötig bzgl. der Festlegung eines Konstrukts, einer Fragestellung (!); Konstruktvalidität, Strategien zur Untersuchung der Konstruktvalidität

A

Um Konstrukt zu erfassen muss man es theoretisch definieren
> Je genauer man zu erfassendes Konstrukt theoretisch fasst, umso gezielter kann Itemkonstruktion bzw. -auswahl erfolgen
> Zu erfassenden Konstrukte sind meist in übergeordnete Theorien u Modelle eingebettet
Bsp “Fähigkeit, Emotionen in Gesichtern zu erkennen” ist Teilfähigkeit von “Fähigkeit, Emotionen zu erkennen”
> Wichtig bei Interpretation d Ergebnisse u Validität d Schlüsse d daraus gezogen werden

  • Art des Merkmals: Kontinuierliches o kategoriales Merkmal?
    > Kontinuierlich: Eindimensional / mehrdimensional?
    > Kategorial: Wie viele Kategorien (Typen) sind bei latenter kategorialer V zu unterscheiden? Kann man aus bisherigen Erkenntnissen in Forschungsbereich keine Hypothese ableiten, werden zB exploratorische Studien im Konstruktionsprozess durchgeführt oder diesem vorgeschaltet
  • Mehrdimensionalität: Es lassen sich zwei Varianten v Modellen unterscheiden
    1. Versch Items erfassen versch Dimensionen (latente V),
    2. WSK einer Itemantwort hängt von mehreren latenten V ab
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wesentliche Schritte der Konstruktion psychologischer Tests
o Schritte der Testkonstruktion/-entwicklung; was ist zu beachten/nötig bzgl. der Festlegung eines Konstrukts, einer Fragestellung; Konstruktvalidität (!), Strategien zur Untersuchung der Konstruktvalidität

A
  • Bezieht sich auf Frage, inwieweit Testwerte im Sinne d Konstrukts, das beobachtete Testwerte u deren Zshänge mit anderen V erklären soll, interpretiert werden können
  • Untersuchung d Konstruktvalidität ist meist ein umfass Forschungsprogr, d mit Testentwicklung nicht beendet ist, sondern d Einsatz d Tests in Forschung u Praxis fortwährend begleiten kann
  • Sicherung d Konstruktvalidität durch nachweisen, dass Testwerte d Erwartungen folgen, die man aus theoret Überlegungen zum Konstrukt herleiten kann
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wesentliche Schritte der Konstruktion psychologischer Tests
o Schritte der Testkonstruktion/-entwicklung; was ist zu beachten/nötig bzgl. der Festlegung eines Konstrukts, einer Fragestellung; Konstruktvalidität, Strategien zur Untersuchung der Konstruktvalidität (!)

A

Strategien zur Untersuchung der Konstruktvalidität am Bsp gute vs. schlechte Stimmung:
1. Analyse von Gruppenunterschieden (zB Varianzanalyse, Hypothesentest)
zB Geben depressive Personen geringere Werte auf einer Gute-Stimmung Skala an als nicht depressive Personen?
2. Zshangsanalysen mit anderen Tests (zB bivariate Verfahren)
zB hängen Stimmungswerte mit anderen Testwerten zur Erfassung
der Stimmung zusammen?
3. Analyse der internen Struktur eines Tests
zB Sind die Items zur Erfassung der Stimmung eindimensional?
4. Analyse der Stabilität vs. Veränderung von Testwerten
zB schwanken Stimmungswerte über Zeit u Situationen hinweg u verändern sie sich nach experimenteller Induktion von positiver Stimmung?
5. Prozessanalyse (Untersuchung d Antwortprozesses)
zB Wie kommt d Lösung einer Aufg zustande? (Lautes Denken)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wesentliche Schritte der Konstruktion psychologischer Tests
o Erstellung eines Itempools (!), Testkonstruktionsprinzipien/-methoden/-ansätze (!), Facetten der Validität
o Auswahl eines Antwortformats; Gütekriterien der Itemauswahl (auch
Itemselektionsprozess); Skalierung und Normierung; Aspekte der Testanalyse und Inhalte der Testdokumentation

A
  • Auswahl d Items muss so erfolgen, dass Konstrukt durch Items angemessen repräsentiert wird (zB beim Erkennen von Emotionen: zB nur Basisemotionen)
    > Konstrukt darf nicht unterrepräsentiert sein, also muss jede Emotion als Bild vertreten sein
    > Testwert darf nicht von konstruktirrelevanten Einflüssen (Merkmale, d Testverhalten beeinflussen, aber nichts mit gemessenem Konstrukt zu tun haben) abhängen, also darf Nichterkennen d Emotionen zB nicht von Bildqualität abhängen
  • Je nach Anwendungsbereich d Tests kommen Inhalts- u Kriteriumsvalidität in unterschiedl Ausmaß bei Itemkonstruktion u -selektion zum Tragen
  • In d Psychol haben sich versch Strategien herausgebildet, d sich an untersch Aspekten d Validität orientieren:
    1. Rationale Testkonstruktion, bei d Items eng an theoret Überlegungen zum Konstrukt erstellt werden
    2. Strategien, bei denen insbes d Repräsentativität d Items für einen Inhaltsbereich gesichert werden soll u d somit auf Inhaltsvalidität abheben
    > zB Konstruktion kriteriumsorientierter Tests u induktive Konstruktionsstrategien
    3. Strategien, bei denen Vorhersageleistung eines Tests (Vorhersage eines externen Kriteriums (zB (Nicht)Vorliegen eines klinischen Symptoms), maximiert werden soll u somit auf Kriteriumsvalidität fokussieren

=> Testkonstruktionsprozess verbindet meist d versch Ansätze

Testkonstruktionsmethoden:

  1. Rational bzw deduktiv (Konstruktvalidität) => Von Theorie wird abgeleitet, welche Items logisch wären
  2. Kriteriumsorientiert (Inhaltsvalidität, Bereich Erfassung Kompetenzen) => Nach Merkmalsart (kategorial/kontinuierlich), nach Dimensionalität (Typen)
  3. Induktiv (orientiert sich an Inhaltsvalidität, Persönlichkeits- / Befindlichkeitsdiagnostik),
  4. Externale Testkonstruktion (Kriteriumsvalidität)

=> Bei allen 4 Punkten ist die Validität wichtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wesentliche Schritte der Konstruktion psychologischer Tests
o Erstellung eines Itempools, Testkonstruktionsprinzipien/-methoden/-ansätze, Facetten der Validität
o Auswahl eines Antwortformats (!); Gütekriterien der Itemauswahl (auch
Itemselektionsprozess); Skalierung und Normierung; Aspekte der Testanalyse und Inhalte der Testdokumentation

A
  • Wahl d Antwortformats kann von mehreren Aspekten abhängen
    1. Objektivität: Antwortformat stellt dann Objektivität sicher, wenn Testwert, d Interpretation zugrunde gelegt wird, nicht von TestleiterIn beeinflusst wird
    > Bei geschlossenen (gebundenen) Antwortformaten hoch, bei offenen (freien) Antwortformaten idR geringer
    2. Präzision, mit der man Konstrukt erfassen will
    > Hohe Anzahl d Antwortformate ist präziser, kann Person jedoch überfordern, sodass Antwortstil (nur noch geringste/höchste Kategorie) entwickelt wird => Weniger vergleichbar bei Personen mit versch Antwortstilen

=> Auswahl d Antwortformats muss nach Abwägen von Vor- u Nachteilen entschieden werden u hängt von Fragestellung ab

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wesentliche Schritte der Konstruktion psychologischer Tests
o Erstellung eines Itempools, Testkonstruktionsprinzipien/-methoden/-ansätze, Facetten der Validität
o Auswahl eines Antwortformats; Gütekriterien der Itemauswahl (!) (auch Itemselektionsprozess); Skalierung und Normierung; Aspekte der Testanalyse und Inhalte der Testdokumentation

A

Prästests:
- Zusätzlich zum Itempool muss Instruktion für Test erstellt werden
> Richtet sich an Personen, d Test bearbeiten sollen (Erklärung wie Test bearbeitet wird), u an Testleitung (erläutert, wie Test durchgeführt werden soll)
1. Expertenurteil: Instruktion u Itempool muss von Experten abgesegnet werden
2. Test muss kleiner Stichprobe von Personen, d repräsentativ für später zu testenden Personen sind, vorggb werden (Prätest), um Prozessanalysen durchzuführen
3. Empirische Untersuchungen: Zur psychometr Güte d Items
> Items müssen anhand psychometr Modells untersucht werden
> Anhand Ergebnisse dieser Studie sollten Items zunächst anhand deskriptivstatistischer Verfahren untersucht werden, um Auffälligkeiten
aufzudecken (zB Kodierfehler, unzulässige Werte, keine Varianz der
Itemantworten)
> Schließlich sollten Items anhand eines angemessenen testtheoret Modells untersucht werden
> Anhand dieser Modelle können Items nach spezif Optimalitätsbedingungen ausgewählt werden

KÜRZEN

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wesentliche Schritte der Konstruktion psychologischer Tests
o Erstellung eines Itempools, Testkonstruktionsprinzipien/-methoden/-ansätze, Facetten der Validität
o Auswahl eines Antwortformats; Gütekriterien der Itemauswahl (auch
Itemselektionsprozess) (!); Skalierung und Normierung; Aspekte der Testanalyse und Inhalte der Testdokumentation

A

Itemselektionsprozess ist im Allg an folg Kriterien orientiert:
1. Passung zum Modell: Items müssen Anforderungen d psychometr Modells entsprechen (Items, die dies nicht tun, werden aussortiert)
2. Schätzgenauigkeit: Latente Merkmalsauspr sind unbekannt u müssen geschätzt werden (Genauigkeit hängt von Eigensch u Anzahl d Items ab)
> Es werden Items ausgewählt, d hohen Beitrag zur Schätzgenauigkeit leisten
> Steht in engem Zshang mit Reliabilität
3. Ökonomie: Test ist ökon, wenn er wenig Ressourcen verbraucht (bei Testkonstruktion va bzgl Testlänge)
> Dauert länger für alle Beteiligten, teurer usw aber kann förderlich
für Schätzgenauigkeit sein
> Kunst d Testkonstruktion: Items auswählen, d hohe Schätzgenau u Ökonomie gewährleisten
4. Zumutbarkeit: Testpersonen sollten im Vgl zum Nutzen in zeitl, psych u körperl Hinsicht nicht unverhältnismäßig belastet werden
> Je weniger zumutbar ein Test, umso größer ist Gefahr, dass konstruktirrelevante Faktoren ins Spiel kommen
> Spezif Methoden d Testdarbietung wie adaptives Testen bieten persspezif zsgestellte Items, dass sie für eine Person zumutbar sind u gleichzeitig adäquate Schätzung ihrer Merkmalsausprägung erlauben
5. Testfairness: Test sollte in allen Subgruppen (ethnisch, Geschlecht etc) dasselbe Konstrukt messen u Items, d in untersch Subgruppen untersch Eigenschaften aufweisen, sollten eliminiert werden
6. Unverfälschbarkeit: Test ist verfälschbar, wenn Pers zutreffende Antwort durch ihr Testverhalten verzerren können (zB bei hoher Augenscheinval u Erfassung v Persönlichkeitsmerkm o Intelligenz)
> Als Test zB zwei Zufallsstichproben miteinander vgl, von denen eine Gruppe d Test in neutraler Situation ohne persönl Konsequenzen bearbeitet, zweite Gruppe wird gebeten, sich in eine Testsituation hineinzuversetzen, in der Test eingesetzt werden soll zB Einstellungs-, Berentungsverfahren)
» Items identifizieren, die besond für Verfälschungen anfällig sind

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Wesentliche Schritte der Konstruktion psychologischer Tests
o Erstellung eines Itempools, Testkonstruktionsprinzipien/-methoden/-ansätze, Facetten der Validität
o Auswahl eines Antwortformats; Gütekriterien der Itemauswahl (auch
Itemselektionsprozess); Skalierung und Normierung (!); Aspekte der Testanalyse und Inhalte der Testdokumentation

A
  • Transformation v Merkmalswerten erleichtert Interpretation d Merkmauspräg, da
    1. leichter erkannt werden kann, wie Leistung zu bewerten ist
    2. sie Ergebnisse aus versch Tests vergleichbar machen
    > Transformierte Merkmalswerte = Skalenwerte, Bildung transformierter Werte = Skalierung
  • In testtheor Modellen kann man Skalenniveau d latenten V bestimmen
    > Modelle erfüllen daher d Gütekriterium d Skalierung, da in ihnen d Skalenniveau d latenten V eindeutig hergeleitet werden kann
  • Norm- (Verteilung in Referenzpopulation wird herangezogen) u kriteriumsorientierte Skalierung (Kriterium festgelegt, das zu erfüllen ist) basieren beide auf Bezugssystem
    > Wichtig, dass Skalierung so gewählt wird, dass sie zu erfassendes Merkmal für Zwecke, für d Test eingesetzt werden soll, angemessen repräsentiert
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Wesentliche Schritte der Konstruktion psychologischer Tests
o Erstellung eines Itempools, Testkonstruktionsprinzipien/-methoden/-ansätze, Facetten der Validität
o Auswahl eines Antwortformats; Gütekriterien der Itemauswahl (auch
Itemselektionsprozess); Skalierung und Normierung; Aspekte der Testanalyse (!) und Inhalte der Testdokumentation

A
  • Nachdem alle Items ausgewählt wurden, können diese zu Test zsgestellt u allg Güteeigenschaften d Tests untersucht werden, zB Bedeutungsänderungen eines Items im Kontext der Darbietung
    > Idealfall: Ausgewählte Items werden neuer Stichprobe vorgelegt u Gütekriterien d Gesamttests anhand dieser untersucht
    » Stichprobe sollte repräsentativ für Population v Personen sein, bei denen Test eingesetzt werden soll
  • Wichtiges Gütekriterium d Gesamttests angeben: Reliabilität
    > Messfehler verringern, indem man Items austauscht?
  • Darüber hinaus sollte Genauigkeit d Schätzung einzelner latenter Merkmalswerte bestimmt werden
  • Auch Validität u Objektivität sollten in Bezug auf Gesamttest analysiert u zsgestellt werden
  • Auch restliche Gütekriterien sollten nochmals anhand des Tests überprüft u dokumentiert werden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Wesentliche Schritte der Konstruktion psychologischer Tests
o Erstellung eines Itempools, Testkonstruktionsprinzipien/-methoden/-ansätze, Facetten der Validität
o Auswahl eines Antwortformats; Gütekriterien der Itemauswahl (auch
Itemselektionsprozess); Skalierung und Normierung; Aspekte der Testanalyse und Inhalte der Testdokumentation (!)

A
  • Nach Entwicklung des Tests muss diese dokumentiert werden

> Inhalte der Testdokumentation (in Anlehnung an Häcker et al., 1998)
• theoretische Grundlagen des Tests
• empfohlene Anwendungsbereiche
• empirische Belege für die Anwendungsbereiche
• Hinweise auf missbräuchliche Anwendungen (falls absehbar)
• spezifische Qualifikationen des Testanwenders (falls notwendig)
• Instruktion für die Testdarbietung
• Beispiele von Interpretationen der Testergebnisse
• Grundlagen der Testentwicklung (Definition des Inhaltsbereichs oder Itemgrundgesamtheit, Itemauswahl)
• Hinweise darauf, inwieweit Testergebnisse durch Übung, Coaching oder Anleitung verbessert werden können
• Informationen zu Gütekriterien
• Darstellung der Normen (falls gewünscht)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Itemkonstruktion (!)
o Konstruktion des Itemstamms (Itemgegenstände, Leitaspekte der Itemgenerierung, Itemformulierung und -anordnung, Empfehlungen zur Formulierung von Items in Anlehnung an Porst, 2008, und Schnell, 2012); Antwortformate; Itemkodierung

A
  1. Klären, welche konkreten Fragen u/o Aufg man stellen möchte (Reiz / Itemstamm genannt) u
  2. Wie Antworten aussehen sollen, d ProbandInnen geben sollen (Antwortformat)
  3. Relevant für Formulierung v Items u Antwortformaten: Frage, welche Daten letztlich interessieren:
    Will man wissen, (a) was die Testperson konkret über den Satz des Pythagoras weiß, reicht es, (b) festzuhalten, ob das, was sie dazu geäußert hat, richtig ist, oder interessiert, (c) wie lange sie braucht, um die Aufgabe zu bearbeiten?
    > Geht darum, wie man von Reaktion d Testperson zu sinnvollen Testwerten kommt (=> Itemkodierung)
21
Q

Itemkonstruktion
o Konstruktion des Itemstamms (Itemgegenstände (!), Leitaspekte der Itemgenerierung, Itemformulierung und -anordnung, Empfehlungen zur Formulierung von Items in Anlehnung an Porst, 2008, und Schnell, 2012); Antwortformate; Itemkodierung

A
  • Bei Messgegenstand kann wesentl Untersch getroffen werden:
    1. Ist Konstrukt eine Kompetenz (prototypisch: Intelligenz) / Fertigkeit, bestehen Items typischerw aus zu lösender Aufg u deren Beantwortung als richtig / falsch gewertet werden kann
    > Sammlung solcher Aufgaben = Leistungstests (Power- / Speedtest)
    2. Fragebögen, um subj Wahrnehmung von Personen zu erheben: Einstellungen, Meinungen, Überzeugungen, Selbstkonzept usw
    => Konstruktionsprinzipien für beide Arten von psychometr Verfahren ähneln sich überwiegend
22
Q

Itemkonstruktion
o Konstruktion des Itemstamms (Itemgegenstände, Leitaspekte der Itemgenerierung (!), Itemformulierung und -anordnung, Empfehlungen zur Formulierung von Items in Anlehnung an Porst, 2008, und Schnell, 2012); Antwortformate; Itemkodierung

A
  • Bei Überlegung geeignete Items fürs anvisierte Konstrukt zu finden, ist es zunächst hilfreich zu fragen:
    a) woran, wie, zu welchen Gelegenheiten usw. sich das interessierende
    Konstrukt überhaupt manifestiert. Dabei ist für weitere Auswahl einerseits relevant,
    b) ob erhobene Verhaltensweisen an sich repräsentativ fürs Konstrukt sind, um es adäquat abbilden zu können, u andererseits,
    c) ob gewählte Verhaltensweisen zw Personen mit unterschiedl Ausprägungen d Konstrukts differenzieren
  • Bei Fragebogenitems ist es weiterhin sinnvoll, Merkmale / Verhalten auszuwählen, d Befragte gut beobachten können u ihnen leicht verfügbar sind
  • Eine Aufgabe die zu 100% gelöst wird, kann keine Fähigkeitsunterschiede abbilden, würde in den Test selbst deswegen nicht aufgenommen werden, ist aber als Übungsaufgabe geeignet. → Es reicht nicht, dass ein Item das Konstrukt abbildet, es soll zwischen den Personen differenzieren können.
  • Bei Konstruktion von (Leistungs-)Tests zur Erfassung höherer kognitiver Funktionen greift man zunehmend auf Itemgenerierungsmodelle zurück
    > Basieren auf theoret Überlegungen u empir Erkenntnissen zum Prozess d Itembearbeitung
  • Items mittels Konstruktionsrationales bilden: Gruppe von Regeln, d festlegen, wie Items d jew Tests konstruiert werden
23
Q

Itemkonstruktion
o Konstruktion des Itemstamms (Itemgegenstände, Leitaspekte der Itemgenerierung, Itemformulierung und -anordnung (!), Empfehlungen zur Formulierung von Items in Anlehnung an Porst, 2008, und Schnell, 2012); Antwortformate; Itemkodierung

A
  • Allgemein: Kurz, einfach, positiv und ein Thema pro Item
  • Keine Oder-Fragen
  • Verständnis einer Frage hängt von Formulierung, Kontext, Kommunikationsregeln u evtl angebotenen Antwortmöglichkeiten ab
    > Unterscheidung zw semantischem (Begriffe werden richtig verstanden) u pragmatischem (was mit der Frage „eigentlich“ gemeint ist) Verständnis
    • Konversationsmaxime (implizite Gesprächsnormen, an die sich alle Beteiligten im Rahmen eines kooperativen Gesprächs halten)
    > Auch bei schriftlichen Befragungen wirksam
    • Qualitätsmaxime (wahr, Belegbarkeit d Aussagen; Wenn Person d Frage nicht sofort versteht, nutzt sie Kontextinfos um hinter Sinn zu kommen)
    • Quantitätsmaxime (informativ)
    • Relevanzmaxime (sachbezogen, sachdienlich, relevant äußern; auch hier werden Kontextinfos bei Antwort berücksichtigt, sowie Rollenverhältnisse)
    • Klarheitsmaxime (verständlich äußern; bezieht sich auf semantische Facette einer Frage)
24
Q

Itemkonstruktion
o Konstruktion des Itemstamms (Itemgegenstände, Leitaspekte der Itemgenerierung, Itemformulierung und -anordnung, Empfehlungen zur Formulierung von Items in Anlehnung an Porst, 2008, und Schnell, 2012) (!); Antwortformate; Itemkodierung

A

Empfehlungen zur Formulierung v Items (in Anl an Porst, ‘08, u Schnell, ‘12)
1. Formuliere einfach u kurz. Vermeide unübliche Fachbegriffe, Fremdwörter u Abkürzungen. Mache aus kompliziertem Satz lieber zwei Sätze.
2. Formuliere so konkret u verhaltensbez wie möglich, umso einfacher sollte es sein, d erforderl Infos dazu abzurufen.
3. Formuliere neutral u versuche, d Antwort so wenig wie mögl zu beeinfl:
• keine Suggestivfragen,
• Vermeidung von Begriffen, d best Wertung / Unterstellung nahelegen
4. Überprüfe, ob hypothet Fragen unvermeidlich sind. Hängt v Fragestellung ab, ob hypothet Frage Sinn macht / nicht
5. Beziehe dich nur auf einen Sachverhalt (Eindimensionalität). Werden mehrere Dinge in einem Item genannt, d nicht zwingend miteinander verbunden sind, kann eindeutige Antwort schwierig sein
6. Vermeide Negationen, va aber doppelte Verneinungen, da problematisch.
7. Frage nach Infos, d Befragten einfach zugänglich sind. Beim Formulieren auch berücksichtigen, welche Infos d Befragten tatsächl zugängl sind: Je weiter d erfragten Infos zB zeitl zurückliegen, desto wahrscheinl kommt es zu verzerrenden Erinnerungseffekten.
8. Formuliere eindeutig. Wähle eindeutige zeitliche Bezüge. Erkläre ggf uneindeutige Begriffe, wenn sie für Frage selbst erforderlich sind.

Formale Merkmale:
- Itemstämme können einfach aus Frage / Aufforderung / aus mehreren Teilen bestehen
> Stimuli können zB aus Bildern, Wörtern, kurzen Geschichten (Vignetten), Rechenaufgaben, Matrizen u. Ä. bestehen
- Wir unterscheiden in Abhängigkeit von Standardisierung d geforderten Antwort zw offenen, halboffenen u geschlossenen Fragen / Aufforderungen

25
Q

Itemkonstruktion
o Konstruktion des Itemstamms (Itemgegenstände, Leitaspekte der Itemgenerierung, Itemformulierung und -anordnung, Empfehlungen zur Formulierung von Items in Anlehnung an Porst, 2008, und Schnell, 2012); Antwortformate (!); Itemkodierung

A
  • Grob lassen sich nach Lienert (1989) drei Antwortformate untersch:
    1. Freies (offenes) Antwortformat, bei dem Antwort in ihrer Ausgestaltung (relativ) frei ist,
  • Kurzaufsatz- (Ein-Wort-Sätzen bis hin zu kurzen Essays) wie Persönlichkeitsbereich zB um Aufg handeln, sich selber zu charakterisieren
  • Ergänzungsaufgaben (Vorgabe zu ergänzen, wobei Art d Ergänzung mehr o weniger eng eingegrenzt ist) wie Vervollständigen v Zahlenreihen, Bilden von Analogien
    2. Halboffene Antwortformate: Begrenzte Anzahl von Kategorien, d Person jedoch selbst erstellt (zB 24 Std vorggb, Proband soll selbst Std des Tages nennen an denen er dies u jenes macht)
    3. Gebundenes (geschlossenes) Antwortformat, in d Antwort hinsichtl ihrer Gestaltung vorggb ist, sowie
    4. Atypisches Antwortformat (kommen v. a. bei Leistungstests vor => geht darum, ob best Leistung gezeigt wird, wie schnell oder wie genau sie gezeigt wird usw, Nachahmen, Knopf drücken, …)
26
Q

Itemkonstruktion
o Konstruktion des Itemstamms (Itemgegenstände, Leitaspekte der Itemgenerierung, Itemformulierung und -anordnung, Empfehlungen zur Formulierung von Items in Anlehnung an Porst, 2008, und Schnell, 2012); Antwortformate; Itemkodierung (!)

A
  • Itemkodierung = Auswertung d Antworten d Probanden
  • Numerische Kodierung weist jedem Auswertungsergebnis eine Zahl
    zu u dient idR dazu, d erhobenen Daten in Datei sammeln u auswerten zu können
    > Diese Arten von Infos werden typischerw in sogenanntem Kodierplan festgehalten, damit nachvollziehbar bleibt, wie Daten zustande gekommen u wie sie zu interpretieren sind
  • Antwortformat u Itemkodierung best, welches Skalenniveau resultierendem Datensatz zugrunde liegt u welche Transformationen sinnvoll interpretierbar sind
27
Q

Eindimensionale Modelle für dichotome Antwortvariablen
o Dichotome Variablen (!); univariate Verteilung und Unabhängigkeit dichotomer Antwortvariablen (zB wie/wodurch lässt sich die Verteilung einer dichotomen Variablen beschreiben? Itemschwierigkeit; wann ist Unabhängigkeit gegeben?)
o Zusammenhangsmaße bei dichotomen Variablen (bei der Guttman-Skala reicht: Wovon geht sie aus, wofür ist das Modell der Guttman-Skala gut?)

A

Dichotome Variablen (DV): V, die zwei Werte annehmen können
> Den zwei Kategorien eines beobachtbaren Merkmals werden Werte zugewiesen (auch: kodiert bzw Kodierung) => typischerw 0 u 1
zB bei Leistungsmessung: Wert 1 zeigt typischerw korrekte Lösung eines Problems an, Wert 0 d nicht korrekte Lösung
> DV, d nur Werte 0 u 1 annehmen können, heißen auch Indikatorvariablen

28
Q

Eindimensionale Modelle für dichotome Antwortvariablen
o Dichotome Variablen; univariate Verteilung (!) und Unabhängigkeit dichotomer Antwortvariablen (zB wie/wodurch lässt sich die Verteilung einer dichotomen Variablen beschreiben? Itemschwierigkeit; wann ist Unabhängigkeit gegeben?)

A
  • Verteilung einer dichotomen V lässt sich durch WSKn für einzelne Kategorien d Variablen beschreiben (WSK P(Yi = 1, dass Zufallsvariable Wert 1 annimmt, u WSK P(Yi = 0), dass Zufallsvariable Wert 0 annimmt)
    > Index kennzeichnet d Item (beobachtbare Variable), Anzahl betrachteter V wird mit p bezeichnet, sodass Index von 1 bis p läuft (i = 1, …, p)
29
Q

Eindimensionale Modelle für dichotome Antwortvariablen
o Dichotome Variablen; univariate Verteilung und Unabhängigkeit dichotomer Antwortvariablen (zB wie/wodurch lässt sich die Verteilung einer dichotomen Variablen beschreiben? (!) Itemschwierigkeit; wann ist Unabhängigkeit gegeben?)

A
  • Varianz dichotomer V: Entspricht Produkt d Wskn beider Kategorien 0 u 1
    > Varianz ist umso größer, je ähnlicher beide Wskn sind (max 0,25, wenn beide Kategorien gleich wahrscheinlich)
    > Je stärker WSK von 0,5 abweicht, umso geringer werden Varianz u damit Unterschiede zw Personen im Antwortverhalten
    > Varianz = 0, wenn Kategorie WSK von 1 aufweist u so von allen gewählt wird
  • Standardabweichung ist Wurzel aus Varianz (max mögl Wert bei dichot V: 0,5)
    => Varianz u Standabw können anhand Stichprobendaten geschätzt werden (nicht erwartungstreu), erwartungstreuer Schätzer wird empfohlen
30
Q

Eindimensionale Modelle für dichotome Antwortvariablen
o Dichotome Variablen; univariate Verteilung und Unabhängigkeit dichotomer Antwortvariablen (zB wie/wodurch lässt sich die Verteilung einer dichotomen Variablen beschreiben? Itemschwierigkeit (!); wann ist Unabhängigkeit gegeben?)

A
  • WSK einer korrekten Antwort (P(Yi = 1))
    > Bei Interpretation eigentlich Itemleichtigkeit: Je größer WSK, umso leichter fällt es, Item im Sinne d Merkmalsausprägung zuzustimmen bzw. Aufg zu lösen
  • Häufig wird Wert mit 100 multipliziert
  • Bei Indikatorvariablen entspricht Itemschwierigkeit dem Erwartungswert E(Yi)
    => E(Yi) = 0 * P(Yi = 0) + 1 * P(Yi = 1) = P(Yi = 1)
  • Itemschwierigkeit kann anhand v Stichprobendaten geschätzt werden
    > zB relative Häufigkeit derjen Kategorie bestimmen, der 1 zugeordnet wurde oder Mittelwert y̅i berechnen
31
Q

Eindimensionale Modelle für dichotome Antwortvariablen
o Dichotome Variablen; univariate Verteilung und Unabhängigkeit dichotomer Antwortvariablen (zB wie/wodurch lässt sich die Verteilung einer dichotomen Variablen beschreiben? Itemschwierigkeit; wann ist Unabhängigkeit gegeben?(!))

A
  • Hängen beobachtbare V (Items) nicht miteinander zs, liegt ihnen kein gem Konstrukt zugrunde
    > Nicht dazu geeignet, auf ihrer Grundlage Testverfahren zu konstruieren (wichtige Anforderung an die Items = sie müssen zshängen)
  • Zur Überprüfung d Hypothese d Unabhängigkeit zweier dichotomer Zufallsvariablen gibt es versch statistische Tests, zB Vierfelder-Chi-Quadrat-Test oder Fisher-Yates-Test (voraussetzungsärmer als Chi^2)
  • Häufig beschränkt man sich jedoch auf Betrachtung d bivariaten Zshänge zw d V u untersucht, ob je zwei V voneinander unabhängig sind
    > Alpha-Fehler korrigieren (Bonferroni-Korrektur)
32
Q

Eindimensionale Modelle für dichotome Antwortvariablen
o Zusammenhangsmaße bei dichotomen Variablen (bei der Guttman-Skala reicht: wovon geht sie aus, wofür ist das Modell der Guttman-Skala gut?)

A
  • Produkt-Moment-Korrelation dichotomer Variablen ist der Φ-Koeffizient (Phi)
    > Nachteil: Kann max mögl Wert von 1 nur annehmen, wenn beide V selbe Verteilung aufweisen
    > Φ-Koeffizient ist umso kleiner, je untersch Randverteil beider Items sind
  • Q-Koeffizient hängt nicht von Randverteilungen ab u ist idL, d klare Ordnung d Items aufzudecken (deckt Schwierigkeit von Items auf)
    > Wert von 1 zeigt an, dass es keine Person gibt, die ein schwierigeres Item löst, ohne ein leichteres Item zu lösen
    > Konkordant = Person aus Paarling ist auf beiden Items überlegen (gleichsinnig)
    > Diskordant = Eine Person ist jew bei anderem Item überlegen (gegensinnig)
    » Koeffizient ergibt sich über WSK d konkordanten u diskordanten Paare
    » Positives Q = Items abhängig
  • Guttman-Skala (auch: Skalogramm-Analyse) wurde ursprüngl entwickelt, um Messung v Einstellungen mittels eindimensionaler Skala zu ermöglichen
  • Modell beruht auf Annahme eines quantitativen Konstrukts
    > Geht somit v kontinuierlichen Untersch zw Personen in ihren Einstellungen, Fähigkeiten o Persönlichkeit aus
  • Guttman-Skala ist gut, um Annahme zu überprüfen, dass verschiedene Aufg dasselbe Konstrukt erfassen
    > Beobachtete Reaktionen werden nämlich mit Konstrukt (interessierenden Merkmal) verknüpft
    zB drei Items, Schwierigkeit steigt von links nach rechts, Personen links neben 1. Sprungstelle haben 1. Item nicht gelöst, die rechts neben Sprungstelle schon usw
33
Q

Raschmodell:
Modellannahmen (welche gibt es, wovon gehen die Annahmen im Allgemeinen aus (!), keine Formeln; Eigenschaften des Rasch-Modells; was ist unter spezifische Objektivität und stochastischer Unabhängigkeit zu verstehen; Verletzung der bedingten Unabhängigkeit?)

A
  • Rasch-Modell nimmt an, dass WSK umso größer ist, je größer d Fähigkeit eines Kindes ist
    > Annahme wird Rasch-Homogenität genannt (alle Items erfassen dieselbe latente Variable, sie sind homogen im Sinne d Rasch-Modells)
  • Annahme d bedingten stochastischen Unabhängigkeit bedeutet, dass für jede Ausprägung d latenten V η die beobachtbaren Yi stochastisch unabhängig sind
    > Impliziert, dass latente V ƞ alle Zshänge zw p beobachtbaren V erklärt
    > Unbedingte Zshänge zw Items sind darauf zurückzuführen, dass sie dasselbe Konstrukt erfassen
34
Q

Raschmodell:
Modellannahmen (welche gibt es, wovon gehen die Annahmen im Allgemeinen aus, keine Formeln; Eigenschaften des Rasch-Modells (!); was ist unter spezifische Objektivität und stochastischer Unabhängigkeit zu verstehen; Verletzung der bedingten Unabhängigkeit?) ich

A
  1. Je > d Wert d Itemparameters (bei Anwendung derIRT Ausprägung / Wert eines Items auf einer latenten Fähigkeitsdimens; Fähigkeit einer Testperson (Personenparameter))
    - Itemparameter auch: Schwierigkeitsparameter / Itemschwierigkeit
  2. Schwierigkeitsparameter lassen sich wie Personenwerte auf derselben Dimension, d latenten V, anordnen
    - Lösungswsk einer Person hängt v Differenz aus Personenwert m und Itemschwierigkeit (Itemparameter) ab
    > Ist Differenz = 0, entspricht Personenwert Itemschwierigkeit (Lösungswsk = 0,5)
    > Ist Differenz +, Fähigkeit also > Itemschwierigkeit, ist Lösungswsk > 0,5
    > Ist Differenz -, Persfähigkeit also < Itemschwierigkeit, ist Lösungswsk < 0,5
  3. Itemcharakteristikfunktion (kurz: Itemcharakteristik) beschreibt Abhängigkeit d bedingten Lösungswsk von latenter V
    > Form einer s-förmigen logistischen Funktion, d Wendepunkt an d Stelle hat
    > Items können sich in Gleichung nur in Itemschwierigkeit unterscheiden (Rasch-Modell daher auch: Einparametrisches logistisches Testmodell)
    > Itemschwierigkeiten haben keinen Einfluss auf Form d Itemcharakteristiken, nur auf ihre Lage auf d latenten Personenvariablen
    > Alle Itemcharakteristiken sind parallel zueinander
35
Q

Raschmodell:
Modellannahmen (welche gibt es, wovon gehen die Annahmen im Allgemeinen aus, keine Formeln; Eigenschaften des Rasch-Modells; was ist unter spezifische Objektivität (!) und stochastischer Unabhängigkeit zu verstehen; Verletzung der bedingten Unabhängigkeit?)

A

Spezifische Objektivität: Eigenschaft des Rasch-Modells, dass
(a) Vergleich zweier Messobjekte (Personen) vom Messinstrument (items) unabhängig und
(b) Vergleich zweier Messinstrumente (Items) vom Messobjekt unabhängig ist
> Differenz d Itemschwierigkeiten ist für alle Personen gleich

36
Q

Raschmodell:
Modellannahmen (welche gibt es, wovon gehen die Annahmen im Allgemeinen aus, keine Formeln; Eigenschaften des Rasch-Modells; was ist unter spezifische Objektivität und stochastischer Unabhängigkeit zu verstehen (!); Verletzung der bedingten Unabhängigkeit?) (!)

A

Bedingte stochastische Unabhängigkeit: Für jede Ausprägung d latenten V sind d beobachtbaren Variablen Yi stochastisch unabhängig (abgesehen von eta gibt es keine weiteren Einflüsse)
> Impliziert, dass latente V alle Zshänge zw den p beobachtbaren V erklärt
> Unbedingte Zshänge zw Items sind darauf zurückzuführen, dass sie dasselbe Konstrukt erfassen
> Partialisiert man latente Variable aus, sind verbleibende Partialkorrelationen gleich 0

  • Wenn bed stochast Unabhängigkeit verletzt ist, zeigt dies an, dass Zshang zw Items nicht nur von einziger latenten V abhängt, sondern weitere Einflüsse wirksam sind
    zB wenn Probanden während Testdurchführung lernen oder wenn zugrundeliegendes Konstrukt nicht ein-, sondern mehrdimensional ist, Itemformulierung

> Aus stochastischer Unabhängigkeit folgt spezifische Objektivität

37
Q

Raschmodell:
Methoden der Schätzung der Itemparameter und Personenwerte (Welche Schätzmethoden gibt es hier generell, was ist das Grundprinzip der Maximum-Likelihood-Schätzung?)

A
  • Bei Parameterschätzung ist Ereignis bereits eingetreten (Lösung 1., nicht aber 3. Item), Konstruktausprägung wird jedoch gesucht
  • Funktion, die WSK d gefundenen Daten als Funktion d zu schätzenden Parameter ausdrückt, heißt Likelihoodfunktion (likelihood, da es sich
    nicht um Eintreten eines Ereignisses handelt, sondern um Frage, welcher Parameterwert am „plausibelsten“ ist – unter Voraussetzung, dass Ereignis bereits eingetreten ist)
  • Aus psychodiagnost Sicht müssen wir uns für einen Fähigkeitswert entsch u Entscheidung begründen
    > Sinnvoller Schätzwert = Wert, für den beobachtetes Antwortmuster max wahrscheinl ist
    > Wert d LV, an d Kurve ihren maximalen Wert annimmt (Wert, für den gefundene Daten bei Gültigkeit d Rasch-Modells maximal wahrscheinlich sind)
    => Maximum-Likelihood-Schätzer
  • Schätzung d Personenwerte setzt voraus, dass Itemparameter bekannt sind (typischerweise nicht der Fall, müssen auch geschätzt werden)
  • Wichtigste Schätzverfahren: Unbedingte ML-Schätzung, bedingte ML-Schätzung u marginale ML-Schätzung, paarweise Schätzmethoden
38
Q

Wichtigste ML-Schätzverfahren

A
  1. Unbedingte ML-Schätzung
    - Gemeinsame Parameterschätzung Itemschwierigkeit (αi) und Personenwert (ηm)
    - Je mehr Probanden u Items, desto mehr geht Schätzwert Richtung wahren Wert
    > Test festgelegt, Itemanzahl nicht erhöhbar, Itemparameter leidet unter Ungenauigkeit der Personenparameterschätzung
    > Personenwerte können nicht richtig geschätzt werden, wenn Person alle / keine Items gelöst hat
  2. Bedingte ML-Schätzung
    - Getrennte Schätzung mittels suffizienter Schätzung
    > Ich brauche Ersatz für Parameter, zB Anzahl gelöster Aufg als Indikator für Personenparameter oder Anzahl Personen, die Item gelöst haben als Ersatz für Schwierigkeit von Item
  3. Marginale ML-Schätzung
    - Getrennte Schätzung mittels Antwortmuster
    > Berechne WSK dafür, dass zufällige Person best Antwortmuster zeigt und multipliziere das über alle Personen auf
    > Schwierigkeit des Items einziger Einfluss, Personenfähigkeit rausgeflogen
  4. Paarweise Schätzmethoden
    - Basiert auf Differenz der (allen möglichen) Itempaare
    - Differenz von WSKn wird ermittelt, dafür dass Item korrekt gelöst wurde, das andere Item aber nicht, geteilt durch umgekehrten Teil
    > Das ganze abschätzen über relative Häufigkeit über Stichprobe (besonders große Schätzfehler, vor allem bei kleinen Stichproben)
  5. Gewichtete ML-Schätzung
    - Ähnlich wie unbedingte, asymptotisch gleiche Verteilungseigenschaften, vorteilhaft ggü dieser, weil geringere Verzerrung

=> Prinzipiell nutzt immer Betrachtung der Daten in Abhängigkeit der Personenwerte und der Itemparameter

  1. Bayes-Modal-Schätzmethode
    - Versuchen nur Personenwerte zu betrachten
    > Bildet eine Art Dichte der Personenvariablen und versucht diese direkt zu maximieren
    - Vtlg wird von vornherein durchgeführt, wenn die nicht stimmt, hat man Problem
  2. Expected-a-posteriori-Schätzer

Tipp: Keine Personenwerte schätzen, wenn man weniger als 10 Items hat

=> Wichtig: Reliabilität, auch Personenseparierbarkeit (wie gut kann Instrument zw Personen trennen)
=> Anteil Varianz der wahren Werte an der Varianz unserer geschätzten Werte => Fehler der Schätzung rausrechnen, sodass nur Unterschiede in Personen relevant werden

39
Q

Raschmodell: Testcharakteristikfunktion

A
  • Im Rasch-Modell erwartet man, dass mit Zunahme d Fähigkeit auch d Anzahl gelöster Aufg steigt
  • Teilt man Variable S (Anzahl gelöster Aufg) durch Itemanzahl p, erhält man relat Anteil gelöster Aufg
    > Relativer Anteil gelöster Aufg nimmt also mit Zunahme d latenten Fähigkeit monoton zu
  • Testcharakteristikfunktion beschreibt Abhängigkeit d Erwartungswertes d Variablen S/p von LV η
    > Entspricht Summe d bedingten Lösungswsk geteilt durch p
  • Grafik, d diese Abhängigkeit darstellt => Testcharakteristikkurve
40
Q

Raschmodell: Suffiziente Statistik für Itemparameter

A
  • Im Rasch-Modell gibt es auch eine suffiziente Statistik für d Itemparameter, u zwar Personenanzahl, d ein Item gelöst haben
    > In Häufigkeit, mit d ein Item gelöst wurde, steckt gesamte Info, d in d Daten bzgl Itemschwierigkeit enthalten ist
41
Q

Raschmodell: Leichtigkeitsparameter, Testinformations- und Iteminformationsfunktion

A
  • In multiplikativer Parametrisierung hängt Lösungswsk vom Produkt aus Personenwert * Itemparameter ab
    > Personenvariable u Itemparameter sind daher verhältnisskaliert
  • Itemparameter δi sind als Leichtigkeitsparameter zu interpretieren, da Lösungswsk umso größer wird, je größer d Wert von δi

Testinformationsfunktion:

  • Gibt an, wie viel Info in d Daten zur Schätzung eines Parameters enthalten ist
  • Einen Wert d Testinformationsfunktion kann man schätzen, indem man geschätzten Itemparameter in d Gleichung des Rasch-Modells einsetzt u hierüber bedingte Varianzen schätzt

Informationsfunktion:
- Gibt an, welchen Beitrag ein Item zur Schätzgenauigkeit eines latenten
Personenwertes im Rahmen einer ML-Schätzung leistet
> Je größer d Wert d Iteminformationsfunktion an einer Stelle d latenten V ist, desto größer ist Beitrag d Items zur Schätzgenauigkeit d Personenwertes an dieser Stelle

42
Q

Raschmodell: Wie kann der Zusammenhang zwischen Itemcharakteristik und Iteminformation (grafisch) aussehen?

A

Ordinate: Werte 0,0 bis 1,0
Abszisse: Werte -4 bis 4
- Itemcharakteristik verläuft stetig steigend bis zur 1,0 u bleibt ab ca 2 / 1,0 dort
- Iteminformation steigt langsam bis ca - 1,8 / 0,22 u sinkt danach wieder auf 0,0

> Höhepunkt der Iteminformation liegt an d Stelle, wo Wendepunkt d Itemcharakteristik liegt (Itemantwort ist an dieser Stelle am informativsten => 0,5)

43
Q

Raschmodell:
Methoden der Überprüfung der Modellgültigkeit (auf welche Aspekte/testbaren Konsequenzen beziehen sich hier die Verfahren und welche Ansätze gibt es zur Überprüfung der jeweiligen Konsequenz?)

A
  • Es muss sichergestellt sein, dass Annahmen d Rasch-Modells in konkreter Anwendung erfüllt sind
  • Aus Annahmen lassen sich testbare Konsequenzen ableiten, d helfen, d Gültigkeit d Rasch-Modells statistisch zu überprüfen:
    1. Gleichheit der Itemparameter in Subpopulationen
    > Wenn Subpopulation bekannt (zB männl, weibl, divers): Graphischer Modelltest, Bedingter Likelihood-Quotienten-Test, Wald-Test
    > Wenn unbekannt: Mischverteilungs-Rasch-Analyse (konfirmatorisch, exploratorisch => AIC, BIC)
  1. a) WSKsverteilung d Antwortmuster muss, denen die ich gemäß Modell erwarte entspr u b) globale Modellgültigkeit
    a) Pearson-Chi-Quadrat-Test, parametrisches Bootstrapverfahren
    b) Globaler Likelihood-Quotienten-Tests
  2. Gleichheit d Personenwerte in reduzierten Rasch-Modellen (zB nur leichte Items oder nur schwere Items betrachten)
    > Wenn Parameter gleich bleiben, testen alle Items das gleiche
    » Martin-Löf-Test, Itemhomogenität, Itemheterogenität, wenn Items/Personen vorhanden sind: Itemselektion, Itemgütemaße / Personengüteidex (Residualmaße)
44
Q

Raschmodell:
Eigenschaften informationstheoretischer Maße zur Modellauswahl (!), Grundidee zum Bootstrap Verfahren und dem Likelihood-Quotienten-Test, Empfehlungen für die Bewertung der Modellgüte

A
  • Maße zum Vgl d Modellgüte versch Modelle
    > Hierbei wird Likelihood des Modells mit Anzahl zu schätzender Parameter verrechnet
  • Ziel: Ein gut passendes, sparsames Modell auswählen
    > Je mehr Parameter frei geschätzt werden, desto besser passt ein Modell, da Anpassung an Daten besser gelingt
  • Um Modellanpassungsgüte u Sparsamkeit miteinander zu verknüpfen, kann auf i.M. zurückgegriffen werden
    > Am häufigsten bestimmt werden Akaike Information Criterion (AIC) u das Bayes Information Criterion (BIC)
    > Je kleiner die Werte ausfallen, desto besser ist Modellpassung
    > Auswahl d Modells, d geringsten / kleinsten infotheoretischen Wert aufweist
    > Versch i.M. können zu untersch Entscheidungen kommen
45
Q

Raschmodell:
Eigenschaften informationstheoretischer Maße zur Modellauswahl, Grundidee zum Bootstrap Verfahren und dem Likelihood-Quotienten-Test (!), Empfehlungen für die Bewertung der Modellgüte

A

Bootstrap: Statistisches Verfahren, um anhand wiederholter Stichprziehungen
ua d Verteilung von Stichprobenkennwerten / Modellgütekoeffizienten zu schätzen

Likelihood-Quotioneten-Test: Test zum Vgl d Modellanpassungsgüte zweier Modelle anhand ihrer Likelihood-Werte, d zueinander ins Verhältnis gesetzt werden (Zähler Likelihood des restriktiveren Modells als Nenner)

LÜCKE

46
Q

Raschmodell:
Eigenschaften informationstheoretischer Maße zur Modellauswahl, Grundidee zum Bootstrap Verfahren und dem Likelihood-Quotienten-Test, Empfehlungen für die Bewertung der Modellgüte (!)

A
  • Zunächst bewerten, ob Schlüsse, d man anhand d Tests zieht, valide sind
  • Einige der behandelten Teststatistiken gehen davon aus, dass Prüfgröße unter Gültigkeit der Nullhypothese asymptotisch bestimmter Verteilung folgt
    > Asymptotisch bedeutet (je nach betrachtetem statistischen Test), dass Anzahl der Personen bzw Itemanzahl sehr groß sein muss
    > Es stellt sich daher die Frage, ob vorher festgelegtes Signifikanzniveau in spezifischer Testung auch eingehalten wird
    > Dies wäre z. B. dann nicht der Fall, wenn die Prüfgröße nicht der angenommenen Verteilung folgte und der kritische Bereich nicht dem intendierten kritischen Bereich entspräche. Die Simulationsstudien von Suárez-Falcón und Glas (2003) sowie Mair und Ledl (2006) zeigen, dass der bedingte Likelihood-Quotienten-Test nach Andersen und der Martin-Löf-Test das Signifikanzniveau auch jeweils bei der Simulation mit geringster Itemanzahl (p = 15) und geringster Personenstichprobe (n = 100) relativ gut einhalten
47
Q

Raschmodell:

Power- vs. Speed-Tests

A

Power-Tests (Niveautests): Keine Zeitbeschränkung, Items untersch sich idealerw in ihren Schwierigkeitenvon sehr leicht bis sehr schwierig

Speed-Tests: Zeitbeschränkung bei Beantwortung, Items sind meistens einfach zu lösen u verfügen über gleiche / ähnliche Lösungsschwierigkeiten

=> Tests sind häufig Mischform aus Speed- u Powertests, indem sie Zeitbeschränkung aufweisen, Items sich aber in Schwierigkeiten untersch

48
Q

Raschmodell:

Benötigte Stichprobengröße

A
  • Größe der Stichprobe (Personen, Items) ist für versch Aspekte v Bedeutung:
    1. Schätzgenauigkeit,
    2. Modelltestung u Power,
    3. Angemessenheit d Parameterschätzung
  • Je größer die Item- u Personenstichpr, umso größer sind Schätzgenauigkeit u Power
  • Auch werden Parameter weniger leicht aufgrund spezif Datenkonstellationen verzerrt geschätzt
  • Je größer d Stichprobe, desto höher Konfidenz u Präzision
  • Rasch-Daumenregel: Pro Item ca 8 korrekte und 8 inkorrente Antworten
  • Bei 95 % Intervall ca 30 Personen bzw 100
  • Prätest: 100 bis 200 Personen
  • Birnbaum (zweiparametrisches logistisches Modell): 20 Items, 100 Personen
  • 3-parametrisches Modell: mind 1.000 Personen
49
Q

Raschmodell:
Schwierigkeitskoeffizienten und Trennschärfe (was ist das, wofür geeignet und wie lassen sie sich bestimmen?), „Identifikation von abweichenden Items“ was ist hier ein Gütemaß?

A

Schwierigkeitskoeffizienten:

  1. Itemschwierigkeit mit Ratekorrektur
  2. Itemschwierigkeit bei Zeitbeschränkung

Trennschärfe:
- Trennschärfekoeffizient eines Items entspricht Korrelation d Items mit Testwertvariablen
> Je > die Korrelation, umso stärker der Zshang eines Items mit Gesamttestwert u umso stärker wirken sich Untersch in Testwerten auf Untersch in Itemantworten aus
- Anzustreben sind daher Items mit hohen Trennschärfekoeffizienten
> Trennschärfekoeffizient hängt von Schwierigkeit der Items ab, und zwar in umgekehrt-u-förmiger Weise: Er ist am größten bei dem gleichverteilten zweiten Item (mittlere Schwierigkeit) u wird umso kleiner, je schiefer d Verteilung der Items wird

Wald-Test identifiziert abweichende Items,
Gütemaß: Residualmaße => Basieren auf Abweichung einer beobachteten Itemantwort einer Person von der aufgrund des Personenwertes erwarteten Itemantwort