GPT Flashcards

1
Q

Definition psy. Test

A

Ein Test ist ein wiss. Routineverfahren zur Erfassung eines oder mehrerer empirisch abgrenzbarer psy. Merkmale mit dem Ziel einer möglichst genauen quantitativen Aussage über den Grad der individuellen Merkmalsausprägung.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Aufgabengebiete der Testtheorie

A

– die Formulierung des theoretischen Hintergrunds über die Verbindung von zu messendem Merkmal und im Test gezeigtem Verhalten sowie
– die Festlegung und Quantifizierung notweniger Qualitätsansprüche.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Definition Routineverfahren

A

Wenn Durchführung und Auswertung…

  • bereits an größerer Stichprobe erprobt
  • so detailliert beschrieben sind, dass das Verfahren auch von anderen TestleiterInnen bei anderen Personen einsetzbar ist
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Definition psy. Merkmal

A

– relativ stabile und konsistente Merkmale (auch „Eigenschaften“ oder „Traits“ genannt)
– zeitlich begrenzte biologische, emotionale und kognitive Zustände sowie (auch „States“ genannt)
– Erlebens- und Verhaltensweisen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Definition Messen

A

einem Objekt (empirisches Relativ) einen Zahlenwert (numerisches Relativ) so zuzuordnen, dass zumindest eine Eigenschaft des numerischen Relativs auch für das empirische Relativ gilt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wofür wird der Begriff Fragebogen verwendet

A
  • schriftliche Befragung zu Erhebung von Daten

- Instrument zur “Selbst- oder Fremdeinschätzung”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Testarten

A
– Leistungstests 
– Persönlichkeits- und Interessensfragebögen 
– objektive Persönlichkeitstests
– projektive Verfahren 
– apparative Tests
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wodurch sind Leistungstests gekennzeichnet?

A

– Konstrukte erfassen, die sich auf kognitive Leistungen beziehen
– die unter der jeweiligen Testbedingung maximale Leistung erfassen möchten
– Aufgaben verwenden, bei denen es „richtige“ und „falsche“ Antworten gibt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wodurch sind Persönlichkeitsfragbögen gekennzeichnet?

A

– das Ziel verfolgen, das für eine Person typische Verhalten zu erfassen,
– mehrere Fragen verwenden, um das Persönlichkeitsmerkmal zu erfassen,
– die Antworten nicht in „richtig“ und „falsch“ klassifizierbar sind, sondern „erfragen“, wie stark das interessierende Merkmal ausgeprägt ist
– im Allgemeinen leicht verfälschbar sind (z.B. durch sozial erwünschte Antworten).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wodurch sind objektive Persönlichkeitstests gekennzeichnet?

A

– versuchen, das Ausmaß an „Verfälschbarkeit“ zu reduzieren indem sie
– das Persönlichkeitsmerkmal nicht durch subjektive Urteile, sondern über Verhalten in standardisierten Situationen erfassen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wodurch sind projektive Tests gekennzeichnet?

A

– versuchen, die Persönlichkeit als Ganzes zu erfassen, wobei sie
– auf individuelle Erlebnis- und Bedürfnisstrukturen Rücksicht nehmen,
– mehrdeutiges Bildmaterial verwenden, um unbewusste oder verdrängte Bewusstseinsinhalte zu erfassen und
– oft explorativen Charakter haben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wodurch sind apparative Tests gekennzeichnet?

A

– Tests, die insbesondere sensorische und motorische Merkmale erfassen
– computerbasierte Tests, die häufig spezielle Varianten von Leistungstests und Persönlichkeitsfragebogen sind

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hauptgütekriterien

A
  • Objektivität
  • Reliabilität
  • Validität
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Nebengütekriterien

A
  • Normierung
  • Skalierung
  • Ökonomie
  • Unverfälschbarkeit
  • Zumutbarkeit
  • Fairness
  • Nützlichkeit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Definition Objektivität

A

Ein Test ist objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig von TestleiterIn, TestauswerterIn und von der Ergebnisinterpretation misst.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

3 Bereiche der Objektivität

A
  • Durchführungsobj.
  • Auswertungsobj.
  • Interpretationsobj.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Definition Durchführungsobjektivität

A

Durchführungsobjektivität ist gegeben, wenn das Ergebnis der Testung nicht davon abhängt, welche TestleiterIn, die Testung durchgeführt . –> Testvorgabe sollte unter standardisierten Bedingungen stattfinden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Wie lässt sich Durchführungsobj. gewährleisten?

A

– Instruktionen, die die TestleiterInnen geben, schriftlich festgehalten
– die soziale Interaktion zwischen TestleiterIn und getesteter Person möglichst gering gehalten
– die Untersuchungssituationen möglichst ähnlich sind

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Definition Auswertungsobj.

A

Ist gegeben, wenn beim Vorliegen der Antworten der Personen auf die Fragen (=Testprotokoll) jede(r) AuswerterIn zum selben numerischen Testergebnis kommt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Wodurch kann Auswertungsobj. gesichert werden?

A

– das Vermeiden freier Antwortformate
– klare Auswertungsregeln
– die Verwendung von Multiple-Choice Antworten
- (statistische Kennzahlen zur Beurteiler Übereinstimmung wie zB Cohens Kappa)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Definition interpretationsobj.

A

Ist gegeben, wenn beim Vorliegen der Testergebnisse unterschiedliche „TestanwenderInnen“ zum selben „Schluss“ kommen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Wodurch kann Interpretationsobj. gesichert werden?

A

– klare Regeln für die Interpretation
– Vorhandensein von Normen und Normwerten
– der Verwendung von Prozenträngen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Definition Relibilität

A

Ein Test ist dann (vollständig) reliabel, wenn er das Merkmal, das er misst, exakt, d.h. ohne Messfehler, misst –> “Genauigkeit”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Arten der Reliabilität

A
  • Retest
  • Paralleltest
  • Innere Konsistenz
    (- Split-Half)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Definition Validität

A

Ein Test gilt dann als valide („gültig“), wenn er das Merkmal, das er messen soll, auch wirklich misst. –> “Gültigkeit”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Was lässt sich durch Validität erklären?

A

– wie sehr ein Test wirklich das zu messende Merkmal misst (~„Konstruktvalidität“)
– wie gut der Testkennwert „Verhaltensweisen“ außerhalb der Testsituation vorhersagen kann (~„Kriteriumsvalidität“).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Arten von Validität

A
  • Konstruktv.
  • Kriteriumsv.
  • Inhaltsv.
  • Augenscheinv.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Definition Skalierung

A

Ein Test erfüllt das Gütekriterium Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirische Merkmalsrelation adäquat abbilden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Definition Normierung (Eichung)

A

Unter Normierung (Eichung) eines Tests versteht man, das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Ziel der Normierung

A

Einen Rahmen für die Interpretation der erzielten Testergebnisse zu schaffen –> Dies erfolgt dadurch, dass die Testergebnisse in Normwerte umgewandelt werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Wann kann Normierung als erfüllt angesehen werden?

A

Wenn:
- die Eichtabellen gültig (d.h. nicht veraltet) sind
– die Population für die Eichtabellen definiert ist
– die für die Erstellung der Eichtabellen herangezogene Stichprobe repräsentativ ist

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Definition Prozentrang

A

Der Prozentrang gibt an, wie viel Prozent der Normierungsstichprobe einen Testwert erzielen, der niedriger oder maximal ebenso hoch ist, wie der Testwert xv der Testperson v. Der Prozentrang entspricht somit dem prozentualen Flächenanteil der Häufigkeitsverteilung der Bezugsgruppe, der am unteren Skalenende beginnt und nach oben hin durch den Testwert xv begrenzt wird.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Besonderheiten von Prozenträngen

A

– setzen keine Intervallskalierung der Testkennwerte voraus
– setzen keine Normalverteilung der Testwerte voraus
– stellen eine inhaltlich einfache Interpretation des Testergebnisses dar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

z-Werte (8)

A

= Standardmesswerte
– legen die relative Position des Testkennwerts der getesteten Person bezogen auf die Referenzpopulation dar
– sind positiv bei überdurchschnittlichen Leistungen
– sind negativ bei unterdurchschnittlichen Testleistungen
– Null bei durchschnittlichen Leistungen
- man kann mit ihnen intervallskalierte Testwerte in normalverteilte Testwerte transformieren
- jedem z-Wert ist ein Prozentrang zugeordnet und umgekehrt
- aus ihnen sich alle verwendeten Normwerte ableitbar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Definition ICC

A

= Intraklassenkorellation: Beurteilerübereinstimmung bei Messungen (Auswertungsobj.)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Ablauf der Testkonstruktion (6)

A
– Planung 
– Itemkonstruktion 
– Erstellung der vorläufigen Testversion 
– Erprobung an Stichprobe 
– Itemanalyse und Überarbeitung 
– Normierung (Eichung)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Was soll bei der Planung beachtet werden?

A

– Welches Merkmal soll erfasst werden?
– Welchen Geltungsbereich soll Test haben?
– Für welche Zielgruppe wird Test gemacht?
– Welche Struktur soll Test haben?
– Wie lange darf Test dauern?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Strategien zur Itemkonstruktion

A

– intuitive Konstruktion
– rationale Konstruktion
– externale (kriteriumsorientierte) Konstruktion
– internale (faktorenanalytische) Konstruktion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

Intuitive Konstruktion

A

Auf eine intuitive Konstruktion der Items sollte nur zurückgegriffen werden, wenn der theoretische Kenntnisstand bezüglich des interessierenden Merkmals gering ist –> Konstruktion der Items abhängig von der Intuition der des/der TestkonstrukteurIn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

Rationale Konstruktion

A

Bei einer rationalen Konstruktion besteht bereits eine elaborierte Theorie über die Differenziertheit von Personen hinsichtlich des interessierenden Merkmals.
– Merkmal differenzieren und spezifizieren
– Verhaltensindikatoren festlegen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

Externale (kriteriumsorientierte) Konstruktion

A

Hierbei wird zunächst ein großer Itempool zusammengestellt und Personen vorgegeben, die sich in dem interessierenden, externalen Merkmal (Kriterium) stark unterscheiden.
Im Anschluss werden jene Items ausgewählt, die gut zwischen Gruppen mit unterschiedlichen Ausprägungen im Kriterium diskriminieren.
Zur Absicherung –> Ergebnis der Itemauswahl an einer anderen Stichprobe überprüfen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
42
Q

Internale (faktorenanalytische) Konstruktion

A

Hierbei werden zunächst Items konstruiert, die hypothetischen Verhaltensdimensionen erfassen sollen. Diese werden einer Stichprobe von Personen der interessierenden Zielgruppe vorgegeben.
Im Anschluss werden die Items einer Faktorenanalyse unterzogen und aufgrund der faktorenanalytischen Ergebnisse zu „Skalen“ zusammengefasst.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
43
Q

Axiome der klassischen Testtheorie

A
  1. Existenzaxiom
  2. Verknüpfungsaxiom
  3. Unabhängigkeitsaxiom
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
44
Q

Was besagt das Existenzaxiom?

A

Das Existenzaxiom besagt, dass ein „wahrer Wert“ (= true score) existiert. Dieser „wahre Wert“ ist der Erwartungswert der gemessenen Leistung einer Person.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
45
Q

Was besagt das Verknüpfungsaxiom?

A

Das Verknüpfungsaxiom besagt, dass sich die gemessene Leistung einer Person aus ihrem wahren Wert und dem Messfehler zusammensetzt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
46
Q

Was besagt das Unabhängigkeitsaxiom?

A

Das Unabhängigkeitsaxiom besagt, dass der „wahre Wert“ einer Person und der bei der Messung entstandene Messfehler nicht korrelieren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
47
Q

Zusatzannahmen des Unabhängigkeitsaxioms

A

Messfehler ist eine Zufallsvariable, das heißt es wird auch Unkorreliertheit angenommen ziwschen:

  • den Messfehlern derselben Person bei unterschiedlichen Tests
  • den Messfehlern unterschiedlicher Personen beim selben Test
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
48
Q

Folgerungen aus den Axiomen

A
  • der Erwartungswert des Messfehlers ist 0
  • Varianz des gemessenen Werts setzt sich zusammen aus Varianz der wahren Werte und Varianz der Messfehler
  • Kovarianz von gemessenen Werten entspricht der Kovarianz der wahren Werte
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
49
Q

Definition Äquivalente Messungen

A

Bei den äquivalenten Messungen geht es um die Frage, welche Voraussetzungen erfüllt sein müssen, um annehmen zu können, dass zwei Tests (oder auch Items), dasselbe psychologische Merkmal messen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
50
Q

4 Zugänge der äquivalenten Messungen

A

– Replikation
– Parallelmessung
– “T”(also das Zeichen was aussieht wie ein T und den wahren Wert symbolisiert)- äquivalente Messungen
– essentielle “T”- äquivalente Messungen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
51
Q

Replikation

A

Bei der Replikation wird gefordert, dass verschiedene Messinstrumente bei derselben Person zu exakt demselben Messergebnis kommen müssen, um von einer wiederholten Messung zu sprechen. Sie stellt somit die strengsten (und für die Praxis unrealistische) Forderungen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
52
Q

Parallelmessung

A

Um eine Parallelmessung handelt es sich, wenn zwei Tests (oder Items), denselben Erwartungswert und die selbe Varianz besitzen. Parallelmessungen erfassen das gleiche psychologische Merkmal gleich genau, da die Gleichheit der Varianzen der Messwerte auch gleiche Varianzen der Messfehler bedeutet. Ein zu Test A paralleler Test wird in weiterer Folge mit A‘ bezeichnet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
53
Q

“T”-äquivalente Messungen

A

Um “T”- äquivalente Messungen handelt es sich, wenn zwei Tests (oder Items), denselben Erwartungswert aber unterschiedliche Varianz besitzen. Sie erfassen das gleiche Merkmal verschieden genau.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
54
Q

Essentiell “T”-äquivalente Messungen

A

Bei essentiell “T”- äquivalenten Messungen unterscheiden sich die Erwartungswerte zweier Tests (oder Items) um eine additive Konstante. Die Varianzen können ebenfalls verschieden sein.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
55
Q

Reliabilität im Rahmen der klass. TT

A

Varianz des Messfehlers im Vordergrund –> Je größer die Varianz des Messfehlers desto, geringer die Reliabilität
Daraus folgt:
- sie besitzt einen Wertebereich von 0 bis 1
- sie ist das Bestimmtheitsmaß der Korrelation von Messwert und wahrem Wert
- sie entspricht der Korrelation der Testergebnisse zweier paralleler Messungen (=Paralleltests)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
56
Q

Retest-Reliabilität

A

Hierbei wird derselbe Test derselben Stichprobe zweimal vorgelegt. Wenn es keine…
– Veränderungen der Messfehlereinflüsse, oder
– „unsystematische“ Veränderungen des wahren Werts gibt, … dann entspricht die geschätzte Reliabilität der Korrelationen der Testergebnisse der beiden Durchgänge.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
57
Q

Was sind unsystematische Veränderungen?

A

Um unsystematische Veränderungen handelt es sich, wenn die zeitlichen Veränderungen nicht bei allen Personen gleichartig sind z.B. bei manchen Personen bleibt der wahre Wert gleich bei anderen steigt er. (Problem bei Leistungstests durch zB Deckeneffekte)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
58
Q

Paralleltest-Reliabilität

A

Hierbei werden Personen zwei Tests vorgelegt, die parallele Messungen darstellen. Die Korrelation der Ergebnisse schätzt die Reliabilität der beiden Tests.
Probleme ergeben sich, wenn die beiden Tests nicht völlig parallel sind –> strenge Testung der Parallelität zweier Tests ist im Rahmen der klassischen Testtheorie nicht möglich –> eleganteste mögliche Prüfung: konfirmatorische Faktorenanalysen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
59
Q

Split-Half-Reliabilität

A

Hierbei wird ein aus mehreren Items bestehender Test in zwei möglichst parallele Untertests geteilt. Die Korrelation der Ergebnisse der beiden Untertests schätzt die Reliabilität des halb so langen Tests. Um auf die geschätzte Reliabilität des Gesamttests zu kommen, wird auf die Formel von Spearman-Brown zurückgegriffen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
60
Q

Innere Konsistenz

A

Hierbei wird jedes Item eines Tests als eigene Messung des interessierenden Merkmals betrachtet. Die innere Konsistenz kann dann als durchschnittliche Korrelation aller Items dieses Tests verstanden werden, hängt aber auch von der Anzahl an Items im Test ab. Die bekanntesten Kennwerte zur inneren Konsistenz sind:

  • Cronbach-Alpha
  • Lambda3 nach Guttman
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
61
Q

Innere Konsistenz bei “T”-äquivalenten Messungen

A

Stellen die Items zumindest essentiell “T”- äquivalente Messungen dar, sind Cronbach-Alpha und Lambda3 nach Guttmann Schätzungen der Reliabilität des Gesamttests.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
62
Q

Innere Konsistenz bei nicht-äquivalenten Messungen

A

Für den Fall, dass die Items keine äquivalenten Messungen darstellen, sind Cronbach-Alpha und Lambda3 nach Guttmann lediglich untere Schranken der Reliabilität.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
63
Q

Was ist zu berücksichtigen bei der anzustrebenden Höhe der Reliabilität?

A
– Art des zu erfassenden Merkmals 
– Individual- versus Kollektivdiagnostik 
– Einsatzbedingungen 
– Kosten-Nutzen Abwägungen 
– Objektivierbarkeit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
64
Q

Welchen Einfluss hat die Art des zu erfassenden Merkmals auf die Reliabilität?

A
  • Leistungsvariablen sind meist präziser messbar als z.B. Einstellungen oder Persönlichkeitseigenschaften.
  • Bei heterogenen Merkmalen kann die innere Konsistenz deutlich geringer sein als z.B. die Retest- oder Paralleltest Reliabilität
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
65
Q

Welchen Einfluss hat Individual- vs. Kollektivdiagnostik auf die Reliabilität?

A

Bei Individualdiagnostik sollte Messgenauigkeit höher sein als bei Messung der Durchschnittleistung eines Kollektivs, da sich die Messfehler bei der Zusammenfassung von Messungen mehrerer Individuen „reduzieren“.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
66
Q

Welchen Einfluss haben Einsatzbedingungen auf die Reliabilität?

A

Bei Tests, die nicht adaptiv vorgegeben werden können, hängt die Reliabilität relativ stark von der Testlänge ab –> Tests und Fragebögen, die zum Screening eingesetzt werden und daher eher kurz sind, haben meist eine geringere Reliabilität

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
67
Q

Welche 2 Arten von Konfidenzintervallen gibt es?

A

– auf Basis der Messfehlervarianz

– auf Basis der Schätzfehlervarianz

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
68
Q

Was sollte man anstatt “Validität eines Tests” sagen?

A

Validität möglicher Interpretationen von Testergebnissen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
69
Q

Welche 2 Merkmalsdefinitionen gibt es?

A
  • operational

- theoretisch

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
70
Q

Operationale Merkmalsdefinition

A

Um eine operationale Merkmalsdefinition handelt es sich, wenn die Testaufgaben den interessierenden Anforderungsbereich direkt repräsentieren.
Ein operational definiertes Merkmal bezieht sich zunächst nur auf die spezifischen Test- bzw. Merkmalsinhalte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
71
Q

Theoretische Merkmalsdefinition

A

Bei theoretischen Merkmalsdefinitionen werden Theorien herangezogen, die verdeutlichen, worauf bestimmte Unterschiede zwischen Personen zurückgeführt werden können und wie sich diese Unterschiede in den Testergebnissen ausdrücken.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
72
Q

Weitere Formen der Validität

A

– Übereinstimmungsvalidität
– prognostische Validität
– diskriminante Validität
– konvergente Validität

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
73
Q

Definition Inhaltsvalidität

A

Inhaltsvalidität bezieht sich darauf, inwieweit die Inhalte der Tests bzw. der Items, aus denen sich ein Test zusammensetzt, tatsächlich das interessierende Merkmal erfassen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
74
Q

Inhaltsval. bei operationalisierten Merkmalen

A

Bei operationalisierten Merkmalen bezieht sich die Inhaltsvalidität vor allem auf die Verallgemeinerbarkeit der Testergebnisse. Es geht also darum, inwieweit die ausgewählte Items eine repräsentative Auswahl aus der Menge aller möglicher Aufgaben sind.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
75
Q

Inhaltsval. bei theoretisch definierten Merkmalen

A

Auch bei theoretisch definierten Merkmalen muss die Verallgemeinerung auf eine größere Menge von Aufgaben möglich sein. Zusätzlich muss angenommen werden können, dass unterschiedliche Antworten Unterschiede im interessierenden Merkmal erklären können. Das bedeutet, es muss von den Itemantworten auf das interessierende Merkmal geschlossen werden können –> nur möglich mit guter theoretischer Fundierung und daran orientierter Itemkonstruktion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
76
Q

Definition Augenscheinvalidität

A

Augenscheinvalidität gibt an, inwieweit der Validitätsanspruch eines Tests vom bloßen Augenschein her einem Laien gerechtfertigt erscheint.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
77
Q

Definition Konstruktvalidität

A

Konstruktvalidität umfasst die empirischen Befunde und Argumente, mit denen die Zuverlässigkeit der Interpretation von Testergebnissen im Sinne erklärender Konzepte, die sowohl Testergebnisse als auch Zusammenhänge der Testwerte mit anderen Variablen erklären, gestützt wird –> Testergebnisse vor dem Hintergrund eines theoretischen Konstrukts interpretieren!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
78
Q

Welche 2 Bereiche gibt es bei der Konstruktvalidität?

A
  • Bereich der Theorie

- Bereich der Beobachtung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
79
Q

Was machen Korrespondenzregeln?

A

Geben an, wie sich theoretische Zusammenhänge latenter Konstrukte (Bereich der Theorie) auf den Bereich der Beobachtung (des Beobachtbaren) auswirken –> meist Zusammenhänge zwischen manifesten Variablen oder Unterschiede zwischen Gruppen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
80
Q

konvergente Validität

A

hohe Korrelation erwarten zB Korrelation mit einem Test der dasselbe Konstrukt messen soll

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
81
Q

Diskriminante Validität

A

niedrige Korrelation erwartet zB Korrelation mit einem Test, der ein anderes Konstrukt messen soll

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
82
Q

Multi Trait Multi Method Matrix (MMTM)

A

= auf Korrelationen basierende Vorgehen zur Konstruktvalidierung
Sowohl das interessierende Merkmal als auch konkurrierende Merkmale (verschiedene Traits) werden mit unterschiedlichen Methoden erfasst und die erzielten Ergebnisse miteinander korreliert.
Demnach werden teilweise hohe (konvergente Validität) teilweise niedrige Korrelationen (diskriminante Validität) erwartet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
83
Q

Bedingungen die die MTMM-Korrelationsmatrix erfüllen soll

A

– Korrelationen, bei denen dasselbe Merkmal mit derselben Methode erfasst wird (mono Trait / mono Method = Retestreliabilität) sollten höher sein als Messung desselben Merkmals mit unterschiedlichen Methoden (mono Trait hetero Method)
– Korreliert man Messungen bei denen dasselbe Merkmal mit unterschiedlichen Methoden gemessen wird (mono Trait hetero Method), sollten diese Korrelationen höher sein als die Korrelationen von Messungen unterschiedlicher Merkmale mit derselben Methode (hetero Trait mono Method)
– Korrelationen von der Messung unterschiedliche Merkmale mit derselben Methode (hetero Trait mono Method) sollten höher sein als Korrelationen von Messungen unterschiedlicher Merkmale mit unterschiedlichen Methoden

84
Q

Weitere Methoden zur Untersuchung von Konstruktvalidität

A

– Analysen von Antwortprozessen

– Vergleich von theoretisch erwarteten Itemschwierigkeiten mit empirisch ermittelten

85
Q

Definition Kriteriumsvalidität

A

Kriteriumsvalidität bedeutet, dass von einem Testergebnis, auf ein für diagnostische Entscheidungen praktisch relevantes Kriterium außerhalb der Testsituation geschlossen werden kann. Kriteriumsvalidität kann durch empirische Zusammenhänge zwischen dem Testwert und möglichen Außenkriterien belegt werden. Je enger diese Zusammenhänge, desto besser kann die Kriteriumsvalidität als belegt gelten.

86
Q

Außenkriterien für Kriteriumsvalidität können…

A

– zeitlich parallel existieren (Übereinstimmungsvalidität) oder…
– sich auf zukünftige Ausprägungen eins Merkmals beziehen (prognostische Validität)

87
Q

Wie wird Kriteriumsvalidität berechnet und welches Problem entsteht dabei? Wie löst man es?

A

Durch die Berechnung der Korrelation von Testergebnis mit dem Außenkriterium –> Problem: Validität durch zwei Messfehler „verdünnt“, sie fällt also aufgrund der Messfehler, die bei der Messung des Testergebnisses und des Außenkriteriums auftreten, geringer aus, als sie in „Wirklichkeit“ wäre –> Behoben mit Verdünnungsformeln!

88
Q

Taylor-Russell Tafeln

A

Die Grundidee der Taylor Russel Tafeln besteht darin, dass angenommen wird, dass ein Individuum über eine bestimmte Mindestausprägung des zu erhebenden Merkmals verfügen muss, um für eine bestimmte Anforderung geeignet zu sein. Je nachdem wie hoch diese Mindestausprägung ist, ist nur ein gewisser Prozentsatz der „relevanten“ Population „wirklich geeignet“. Dieser Prozentsatz nennt sich Grundrate (GR)/Grundquote (GQ).
Weiters wird aufgrund des Testergebnisses ein bestimmter Teil der getesteten Personen als geeignet betrachtet. Dieser Anteil nennt sich Selektionsrate (SR)/Selektionsquote (SQ).

89
Q

Was kann man anhand der Taylor-Russell Tafeln ablesen?

A

Anhand der Taylor Russell Tafeln ist für tabellierte Grund- und Selektionsraten sowie bei gegebener Validität des Tests ablesbar, wie hoch der Anteil „wirklich geeigneter“ Personen ist, sofern sie aufgrund des Testergebnisses als „geeignet“ angesehen werden.

90
Q

Grundidee der Faktorenanalyse

A

Korrelationen zwischen den (manifesten) Items werden dadurch erklärt, dass ihnen zumindest ein gemeinsames latentes Merkmal (=„Faktor“) zugrunde liegt.

91
Q

Was muss bei paarweisen Korrelationen mit einem Faktor beachtet werden?

A

Die paarweisen Korrelation zwischen den (standardisierten) Items sind selbst bei einem Faktor nicht 1, da neben dem Einfluss des latenten Merkmals auch andere Einflüsse (wie z.B. Messfehler) berücksichtigt werden müssen.

92
Q

Generalfaktormodell

A

von Spearman

- formale Darstellung der Faktorenanalyse im Falle eines einzigen gemeinsamen latenten Merkmals

93
Q

Welches Modell liegt der Faktorenanalyse zugrunde?

A

Multiples Faktorenmodell von Thurstone

94
Q

Was sind die 3 wichtigsten Kennwerte der Faktorenanalyse?

A
  • die Ladungen der Faktoren pro Item (Lamda i,j)
  • die Kommunalität des Items (h^2 i)
  • der Eigenwert des Faktors (Eig(Fj))
95
Q

Was ist die Ladung (Lamda i,j)?

A

Ist die Korrelation von Item i mit Faktor j.

96
Q

Was ist die quadrierte Ladung?

A

Bestimmtheitsmaß

97
Q

Was ist mit dem Bestimmtheitsmaß ablesbar?

A

Wie stark ein Faktor an einem Item „beteiligt“ ist, aber auch, wie gut die Ausprägung des Faktors durch das Item vorhersagbar ist bzw. wie gut das Item den Faktor misst. –> Die Ladung ist daher als (Konstrukt)Validität das Items i für den Faktor j interpretierbar.

98
Q

Ladung gilt als …. Validität

A

Konstrukt-

99
Q

Was ist die Kommunalität? (h^2)

A

Die Kommunalität eines Items gibt an, wie viel der Varianz eines Items durch die gemeinsamen Faktoren erklärt werden kann.

100
Q

Was ist die Kommunalität in Bezug auf Gütekriterien?

A

Geht man davon aus, dass die Ausprägungen der Faktoren bei den Personen stabil sind, so ist die Kommunalität die untere Schranke der Reliabilität des Items.

101
Q

Was ist der Eigenwert eines Faktors (Eig(Fj))?

A

Der Eigenwert eines Faktors gibt an, wie viel der Varianz der Items durch den jeweiligen Faktor erklärt werden kann.

102
Q

Wie rechnet man den Prozentsatz der Gesamtvarianz aller Items, die durch den Faktor erklärt werden, aus?

A

Man dividiert den Eigenwert eines Faktors durch die Anzahl an Items und nimmt das Ergebnis mal 100.

103
Q

Was rechnet man aus wenn man den Eigenwert eines Faktors durch die Summe aller Eigenwerte dividiert und das Ergebnis mal 100 nimmt?

A

Wie viel Prozent der durch die gemeinsamen Faktoren erklärbaren Varianz der jeweilige Faktor erklärt –> je größer der Eigenwert eines Faktors umso größer ist sein Anteil an der „Erklärung“ der Korrelationen zwischen den Items.

104
Q

Was “misst” der Eigenwert?

A

Der Eigenwert ist wichtig, um den „Stellenwert“ eines Faktors zu interpretieren. Er kann als Maß dafür verstanden werden, wie gut die im Test enthaltenen Items den jeweiligen Faktor messen bzw. wie viel „Information“ die im Test enthaltenen Items über den Faktor „liefern“.

105
Q

Grundidee der Parameterschätzung

A

Die Grundidee der Parameterschätzung basiert darauf, zunächst jenen Faktor mit dem größten Eigenwert zu „extrahieren“. Dadurch wird die Summe der quadrierten verbleibenden Korrelationen zwischen den Items am stärksten minimiert. –> man kann Ladungen des 1. Faktors schätzen

106
Q

Was passiert in der Parameterschätzung als nächster Schritt nach Extraktion des 1. Faktors?

A

Der zweite Faktor wird nach derselben Grundidee extrahiert. Allerdings verwendet man hierfür nicht die originalen Korrelationen, sondern die um den Einfluss des ersten Faktors reduzierten („Restkorrelationen“).

107
Q

Was sind die 2 häufigsten Extraktionsverfahren in der Faktorenanalyse?

A

– die Hauptachsenanalyse („principal axis“)

– die Hauptkomponentenanalyse („principal components“)

108
Q

Hauptkomponentenanalyse:

A

Bei der Hauptkomponentenanalyse wird davon ausgegangen, dass sich die Varianz eines Items vollständig durch die gemeinsamen Faktoren erklären lässt. Demnach sind alle Kommunalitäten (und somit auch die Korrelationen eines Items mit sich selbst) gleich 1. Als Konsequenz werden so viele Faktoren extrahiert, wie es Items gibt.

109
Q

Hauptachsenalayse:

A

Bei der Hauptachsenanalyse wird davon ausgegangen, dass sich die Varianz eines Items immer in die Kommunalität und die Einzelrestvarianz aufteilt. Demnach sind die Kommunalitäten (und somit auch die Korrelationen eines Items mit sich selbst) kleiner als 1. Ziel ist es also, nur die durch die gemeinsamen Faktoren erklärbare Varianz zu beschreiben.

110
Q

Kommunalitäteniteration =

A

Da zu Beginn der Datenanalyse die Kommunalitäten nicht bekannt sind (=„Kommunalitätenproblem“), werden die Faktoren zunächst mittels Hauptkomponentenanalyse geschätzt und iterativ (=schrittweise) „verbessert“.

111
Q

Wie lassen sich Faktoren nach der Hauptkomponentenanlyse interpretieren?

A

Bei der Hauptkomponentenanalyse geht es darum, die hoch auf einem Faktor ladenden Items zu einem Sammelbegriff zusammenzufassen.

112
Q

Wie lassen sich Faktoren nach der Hauptachsenanalyse interpretieren?

A

Bei der Hauptachsenanalyse geht es darum, die „Ursachen“ für die (hohen) Korrelationen zwischen den Items zu finden.

113
Q

Für die Bestimmung der Anzahl an Faktoren gibt es fünf üblicherweise herangezogene Kriterien:

A

– Faktorenzahl wird a priori festgelegt
– alle Restkorrelationen sind nahe 0 (z.B.: <0.2)
– der Eigenwert des zuletzt extrahierten Faktors ist kleiner 1 (im übertragenen Sinn ist damit die „Information, die über den Faktor vorliegt“ geringer als die Information eines einzigen Items)
– der Verlauf des Eigenwertediagramms (Screeplot)
– die Parallelanalyse

114
Q

Wie bestimmt man die Faktorenanzahl mithilfe des Verlaufs des Eigenwertediagramms?

A

Bei der Betrachtung des Eigenwertediagramms, wird jene Stelle gesucht, an der der Verlauf das Eigenwertediagramm „abflacht“ (= Elbow Kriterium). Die Faktoren vor dem „Knick“ werden in der weiteren Analyse berücksichtigt.

115
Q

Wie bestimmt man die Faktorenanzahl mithilfe der Parallelanalyse?

A

Bei der Parallelanalyse werden zumindest 100 Datensätze von Zufallszahlen erzeugt, wobei die Anzahl an Items und der Stichprobenumfang dem empirisch gewonnenen Datensatz entspricht. All diese Datensätze werden einer Faktorenanalyse unterzogen und die aus jeder Analyse gewonnenen Eigenwerte werden pro Faktor gemittelt. Als relevante nichttriviale Faktoren werden all jene Faktoren bezeichnet, deren Eigenwerte über jenen der (gemittelten) Eigenwerte der Parallelanalyse liegen.

116
Q

Interpretation der Faktorenlösung

A

Die Ladungsmatrix bildet die Grundlage für die inhaltliche Interpretation der Faktoren. Hierfür werden üblicherweise die in einem Faktor hoch (=ideal sind Items mit Ladungen über 0.7) und in allen anderen Faktoren niedrig ladenden Items (ideal sind hier Ladungen unter 0.3) herangezogen. Diese Items werden auch als „Marker-Items“ bezeichnet.
Zeichnet man die Items als Punkte in einem Raum mit so vielen Dimensionen wie es Faktoren gibt, so liegen „Marker-Items“ nahe an den Koordinatenachsen.

117
Q

Warum gibt es die Faktorenrotation und was passiert dabei?

A

Wegen der Vorgehensweise bei der Parameterschätzung sind hohe Ladungen bei der „Erstlösung“ der Faktoren in der Praxis eher selten. Aus diesem Grund werden die Faktoren zur besseren Interpretierbarkeit „rotiert“. Ziel ist eine einfache Struktur („simple structure“) bei der jedes Item nach Möglichkeit nur in einem Faktor hoch in den anderen Faktoren jedoch gering lädt. –> neue, besser interpretierbare Ladungen.

118
Q

Was ändert sich durch die Faktorenrotation?

A

– die Ladungen
– die Eigenwerte
– möglicherweise auch die Interpretation der Faktoren

119
Q

Was bleibt bei der Faktorenrotation unverändert?

A

– die Kommunalitäten

– der Anteil der durch die Faktoren erklärbaren Varianz

120
Q

Welche 3 Arten der Faktorenrotation gibt es?

A
  • orthogonale R.
  • schiefwinkelige (=oblique) R.
  • Varimax-R.
121
Q

Orthogonale Rotation:

A

der rechte Winkel zwischen den Faktorenachsen wird beibehalten (= unabhängige Faktoren)

122
Q

Schiefwinkelige Rotation:

A

man gibt die Forderung nach unabhängigen Faktoren auf –> Faktorenachsen müssen nicht im rechten Winkel aufeinander stehen

123
Q

Varimax-Rotation:

A

Faktoren werden so rotiert, dass die Varianz der Ladungen innerhalb eines Faktors maximal wird. Das bedeutet, das Ziel ist pro Faktor sowohl hohe als auch niedrige Ladungen zu haben, um so die Faktoren leichter benennen zu können.

124
Q

Welche 2 Arten von Faktorwerten/Skalenwerten gibt es?

A
  • gewichtete

- ungewichtete

125
Q

Ungewichtete Faktorwerte=

A

Die Berechnung der ungewichteten Faktorwerte erfolgt pro Person z.B. durch aufsummieren oder mitteln der Punkte jener Items, die in einem Faktor hoch laden.
Items, die in mehreren Faktoren ähnlich hohe Ladungen aufweisen, werden entweder jenem Faktor zugerechnet, in dem sie die höchste Ladung aufweisen oder bei der Berechnung der Faktorwerte nicht berücksichtigt.
Ist die Ladung eines Items in einem Faktor negativ, so muss das Item „umgepolt“ werden.

126
Q

Gewichtete Faktorwerte:

A

Die Items werden je nach Ladung eines Items in einem Faktor gewichtet.Das Umpolen der Items ist hierbei nicht nötig. Es resultieren pro Faktor standardisierte Faktorwerte.

127
Q

Was sind die Probleme bei ungewichteten Faktorwerten?

A
  • unterschiedliche Konstruktvalidität der Items nicht berücksichtigt
  • Items, die in zwei oder mehr Faktoren ähnlich hohe Ladungen haben sind problematisch
128
Q

Was sind die 2 Arten der Faktorenanalyse?

A
  • exploratorische

- konfirmatorische

129
Q

Wann wird die explorative Faktorenanalyse angewendet?

A

Die explorative Faktorenanalyse wird verwendet, wenn noch keine Hypothesen über die Anzahl an Faktoren und die Zuordnung der Items zu den Faktoren existieren.

130
Q

Wann wird die konfirmatorische Faktorenanalyse angewendet?

A

Bei der konfirmatorischen Faktorenanalyse sollen eine oder mehrere zuvor theoretisch festgelegte Faktorenstrukturen anhand empirischer Daten auf ihre Gültigkeit hin überprüft werden. Demnach müssen die Faktorenzahl und die Zuordnung der Items zu den Faktoren bekannt sein.

131
Q

Probleme und Fehler bei Anwendung von FA

A
  • EFA trifft keine Aussagen über Dimensionalität der Items
  • Die klassische Variante der FA beruht auf der Berechnung von Pearson Korrelationen Demnach sollten Items in SPSS metrisch sein.
  • Ergebnisse (vor allem die Anzahl an Faktoren) stark stichprobenabhängig –> Je homogener die Stichprobe, desto geringer die Korrelationen zwischen den Items und umso mehr Faktoren ergeben sich.
  • Für den Fall dichotomer Items sollte als Basis für die faktorenanalytischen Berechnungen die tetrachorische Korrelation herangezogen werden. Die Höhe der Vierfelderkorrelation (=Pearson Korrelation für zwei dichotome Items) hängt stark von den Itemschwierigkeiten der Items ab –> Faktoren bilden zumeist Gruppen von in etwa gleich schweren Items.
  • Mitunter bilden die Faktoren nur das Antwortwortverhalten der Personen ab. So können z.B. Fragen, die von Personen meist bejaht werden, in einem gemeinsamen Faktor hoch laden auch wenn damit inhaltlich völlig unterschiedliche „Dimensionen“ abgefragt wurden.
132
Q

Was ist die Itemanalyse?

A

Nach der Planung und Entwicklung der Items eines Tests müssen diese einer für den zukünftigen Anwendungsbereich des Tests möglichst repräsentativen Stichprobe vorgelegt werden, um die Eignung der Items deskriptivstatistisch (und eventuell faktorenanalytisch) zu untersuchen.

133
Q

Welche 3 Kennwerte berechnet man bei der Itemanalyse?

A
  • Itemschwierigkeit
  • Itemvarianz
  • Itemtrennschärfe
134
Q

Definition Itemschwierigkeit

A

Der Schwierigkeitsindex Pi eines Items i ist der Quotient (=Division) aus der bei diesem Item tatsächlich erreichten Punktesumme aller N Personen und der bei diesem Item von allen Personen maximal erreichbaren Punktesumme multipliziert mit 100.

135
Q

Besonderheit der Itemschwierigkeit bei dichotomen Items

A

Itemschwierigkeit = relative Lösungshäufigkeit

136
Q

Was gilt bei der Itemvarianz?

A

je größer die Varianz eines Items, umso besser seine Fähigkeit zur Differenzierung (=Diskriminationsfähigkeit)

137
Q

Definition Itemtrennschärfe

A

Die Trennschärfe ri,t eines Item i ist der korrelative Zusammenhang zwischen den Punkten, die von einer Person v im Item i und den Punkten die von Person v im Gesamttest erzielt werden –> unkorrigierte!

138
Q

korrigierte Itemtrennschärfe

A

wie unkorrigierte, aber statt erreichter Gesamtpunkteanzahl –> Punkteanzahl, die eine Person im Gesamttest erzielt hat, um die Punktezahl die im jeweiligen Item erzielt wurde reduziert

139
Q

Was ergibt in vergleichbarer Weise den Schwierigkeitsindex wenn alle Items dasselbe Antwortformat haben?

A

die Item-Mittelwerte

140
Q

Was wird bei der Itemselektion u.a. berücksichtigt?

A
  • die ermittelten Testkennwerte

- Ergebnisse der Faktorenanalyse

141
Q

Was ist das Verdünnungsparadoxon?

A

Berechnung des Zusammenhangs von Itemtrennschärfe, Itemvalidität und der Validität des Gesamttests –> Zwar steigt die Validität eines Tests, wenn die einzelnen Items valider sind, jedoch nimmt die Testvalidität mit höher werdender Itemtrennschärfe ab! Demnach sollte die Itemtrennschärfe eines Items nicht hoch sein.

142
Q

Was ist der Qi?

A

Quotient aus Itemvalidität und Itemtrennschärfe pro Item

143
Q

Wofür wird der Qi verwendet?

A

als Kriterium dafür, welche Items bei einer geplanten Testverkürzung aus einem Test entfernt werden können, um die Testvalidität trotzdem größtmöglich zu halten –> es wird die gewünschte Anzahl von Items mit den geringsten Quotienten entfernt

144
Q

4 Kritikpunkte der klassischen Testtheorie

A

– Die Grundannahmen (Axiome) können nicht überprüft werden.
– Das Intervallskalenniveau der Testergebnisse wird vorausgesetzt, kann jedoch nicht generell bewiesen werden.
– Alle im Rahmen der klassischen Testtheorie gewonnenen Kennwerte sind stichprobenabhängig.
– Die Fairness der Summenbildung über verschiedene Items zur Ermittlung eines Gesamttestwerts ist nicht gesichert.

145
Q

Inwiefern ist Reliabilität stichprobenabhängig?

A

Steigt die Varianz der wahren Werte, so wirkt sich dieselbe Messfehlervarianz weniger auf die Reliabilität aus. –> und dadurch auch auf die Validität!

146
Q

Inwiefern ist die Itemvarianz stichprobenabhängig?

A

Die größte Varianz kann bei mittelschweren Items erzielt werden. Je schwerer (oder leichter) ein Item wird, umso geringer ist die Varianz aufgrund von Boden- und Deckeneffekten.

147
Q

Inwiefern ist die Itemschwierigkeit stichprobenabhängig?

A

Je besser die Stichprobe an der die Schwierigkeit eines Items erhoben wird, desto leichter erscheint das Item. Aber auch der Vergleich des Schwierigkeitsverhältnisses zweier Items hängt von der Stichprobe ab.

148
Q

Unterschied kl. TT und IRT

A

Im Gegensatz zur klassischen Testtheorie, die erst beim Testwert ansetzt, sich jedoch nicht näher damit beschäftigt, wie es zu dem Testergebnis kommt, setzen Modelle der IRT bereits an der Formulierung des Zusammenhangs von latenter Dimension und manifester Variable an.

149
Q

Grundidee der IRT

A
  • will das manifeste Antwortverhalten durch die individuellen Merkmalsausprägungen der Personen erklären
  • geht von der Existenz einer einzigen latenten Dimension aus–> beobachteten Antworten der Person werden als Indikatoren dieser latenten Dimension aufgefasst. Mit ihrer Hilfe lässt sich die Ausprägung der Person auf der latenten Dimension abschätzen.
150
Q

Welche 3 Komponenten beeinflussen laut IRT die beobachtete Antwort?

A

– Eigenschaften der Person
– Eigenschaften des Items
– zufällige Einflüsse

151
Q

Was beschreibt die Itemcharakteristik bei der IRT?

A

Zusammenhang zwischen der Ausprägung auf der latenten Dimension und der Wahrscheinlichkeit für eine bestimmte Antwort –> z.B. jeder Personenfähigkeit ist eine eindeutige Lösungswahrscheinlichkeit für ein bestimmtes Item zugeordnet, es kann aber Personen mit unterschiedlicher Fähigkeit geben, die dieselbe Lösungswahrscheinlichkeit bei einem Item besitzen.

152
Q

Was ist ICC?

A

Itemcharakteristik Kurve

153
Q

Welche 3 Typen von Itemcharakteristiken kann man unterscheiden?

A

– streng monotone Funktionen
– monotone Funktionen
- nicht monotone Funktionen

154
Q

Was beschreiben streng monotone ICC?

A

Bei streng monotonen Funktionen nimmt die Lösungswahrscheinlichkeit eines Items mit zunehmender Ausprägung der Person in der latenten Dimension stetig zu oder ab.

155
Q

Was beschreiben monotone ICC?

A

Bei monotonen Funktionen können „Plateaus“ auftreten, sodass Personen mit ähnlichen Fähigkeiten gleiche Lösungswahrscheinlichkeiten haben.

156
Q

Was beschreiben nicht monotone ICC?

A

Nicht monotone Funktionen können sowohl steigen als auch fallen.

157
Q

Was beschreibt die lokal stochastische Unabhängigkeit?

A

In einer Gruppe von Personen mit gleicher Personenfähigkeit, ist die Lösungswahrscheinlichkeit eines Items unabhängig davon, ob die Person das zuvor vorgegebene Item gelöst hat oder nicht –> die Lösungen von Aufgaben dürfen nicht aufeinander aufbauen bzw. die Reihenfolge in der die Items bearbeitet werden, darf keine Rolle spielen

158
Q

Was ist die Guttman Skala?

A

Bei der Itemcharakteristik der „Guttman Skala“ handelt es sich um eine Sprungfunktion, wobei die Itemlösungswahrscheinlichkeit nur die Ausprägungen 0 und 1 annehmen kann –> deterministisch!

159
Q

Was illustriert die Guttman Skala?

A

– die Schwierigkeit des Items und die Personenfähigkeit kann anhand der selben Skala abgelesen werden –> die Personenfähigkeit, die an der Sprungstelle liegt, markiert die Schwierigkeit des Items
– zur Modellierung der Lösungswahrscheinlichkeit aller Items wird nur eine Dimension angenommen
– anhand des Modells können Vorhersagen gemacht werden, die anhand der manifesten Items überprüfbar sind –> die „erlaubten“ Antwortmuster

160
Q

Was ist das Latent Distance Modell von Lazarsfeld?

A

“probabilistische Guttman Skala” basically: Bei der Itemcharakteristik des „Latent Distance Models“ handelt es sich ebenfalls um eine Sprungfunktion, wobei pro Items zwei Itemlösungswahrscheinlichkeiten modelliert werden. Diese beiden Lösungswahrscheinlichkeiten können bei jedem Item anders sein und müssen aus den Daten geschätzt werden.
Dadurch sind alle Antwortmuster möglich, treten jedoch mit unterschiedlichen Wahrscheinlichkeiten auf.

161
Q

Problem bei dem Latent Distance Modell?

A

Obwohl das „Latent Distance“ - Modell realistischere Anforderungen an die Items stellt als die Guttman Skala, ist die Annahme von konstant bleibenden Itemlösungswahrscheinlichkeiten bei steigender Personenfähigkeit wenig realistisch –> Realistischer erscheint, dass die Lösungswahrscheinlichkeit mit steigender Personenfähigkeit zunimmt.

162
Q

Was ist die Itemcharakteristik beim Modell von Rasch?

A

die logistische Funktion

163
Q

Aus was ergibt sich der Parameter U im Raschmodell?

A

Fähigkeit der Person - Schwierigkeit von Item = U

164
Q

Was sind die 4 Forderungen von Rasch an sein Modell?

A
  1. Das Verhältnis der Schwierigkeiten zweier Items soll unabhängig von der gewählten Stichprobe sein.
  2. Das Verhältnis der Fähigkeiten zweier Personen soll unabhängig davon sein, welche Aufgaben den Personen zur Ermittlung der Personenfähigkeiten vorgegeben wurden.
  3. Die Anzahl der gelösten Aufgaben soll die gesamte Information der Daten über die Fähigkeit der Person beinhalten.
  4. Die Anzahl an Personen, die ein Item lösen können, soll die gesamte Information der Daten über die Schwierigkeit des Items beinhalten.
165
Q

Welche grundlegenden Forderungen beinhalten die 4 Forderungen von Rasch?

A
  • spezifische Objektivität von Vergleichen

- erschöpfende (suffiziente) Statistiken

166
Q

Was folgt aus der Forderung nach spezifischer Objektivität?

A

die IC Kurven dürfen sich nicht schneiden –> sie müssen dieselbe Steigung (=Diskrimination) haben

167
Q

Anhand was kann man die Existenz der erschöpfenden Statistiken zeigen?

A

Anhand der Likelihood der Daten = WSK, die erhobenen Daten zu erhalten

168
Q

Was kann man zum Einfluss des RM auf die klassische Testtheorie sagen?

A

Die im Rahmen der klassischen Testtheorie vorgenommene Summenbildung zur Gewinnung eines Rohscores ist nur fair, wenn die Items dem RM entsprechen.

169
Q

Wie ermöglicht das IRT Modell adaptives Testen?

A

Entspricht eine Menge von Items einem IRT Modell, so ermöglicht das Personen miteinander zu vergleichen, auch wenn sie nicht dieselben Aufgaben bearbeitet haben. Damit können die Tests an die Personen angepasst werden (=adaptives Testen).

170
Q

Welche 2 Arten adaptiven Testens gibt es?

A

–Tailored Testing (maßgeschneidertes Testen)

–Branched Testing (verzweigtes Testen)

171
Q

Wie läuft das tailored testing ab?

A

nach jeder Vorgabe eines Items wird der Personenparameter neu geschätzt und aus der Menge der vorhandenen Items (=Itempool) jenes Items ausgewählt, dessen Schwierigkeit der Personenfähigkeit am besten entspricht

172
Q

Wie läuft das branched testing ab?

A

bereits in der Testentwicklung Gruppen von Items zusammengestellt –> Je nachdem wie gut eine Person bei der ersten Itemgruppe abschneidet, wird eine weitere zuvor festgelegte Itemgruppe ausgewählt usw.

173
Q

Wie erfolgt die Parameterschätzung beim Rasch Modell?

A

Die Schätzung der unbekannten Parameter erfolgt im Rasch Modell üblicherweise mit Hilfe der Maximum-Likelihood-Methode. Hierbei werden die unbekannten Parameter so geschätzt, dass die Likelihood der Daten maximal wird.

174
Q

Welche 3 Arten der Maximum Likelihood Schätzungen gibt es?

A

– die unbedingte Maximum Likelihood Methode (UML)
– die bedingte Maximum Likelihood Methode (CML)
– die marginale Maximum Likelihood Methode (MML)

175
Q

Was ist die UML?

A

Die UML basiert auf der Totalen Likelihood der Daten.
Hierbei werden Personenfähigkeits- und Itemschwierigkeitsparameter gleichzeitig geschätzt. Bei dieser Methode muss für jedes Item aber auch für jede Person ein eigener Parameter geschätzt werden.
Das bedeutet jedoch, dass für jede neu hinzukommende Person ein weiterer Personenfähigkeitsparameter benötigt wird. Dies führt häufig zu gröberen Problemen bei der Schätzung.

176
Q

Was ist die CML?

A

Bei der CML wird davon ausgegangen, dass pro Person die Zahl der gelösten Aufgaben bekannt ist. Somit werden die Personenparameter durch die Anzahl gelöster Aufgaben ersetzt und es müssen zunächst „nur“ die Itemschwierigkeitsparameter geschätzt werden. Die Schätzung der Personenparameter erfolgt dann wiederum mittels der UML. Personen mit der gleichen Anzahl an gelösten Aufgaben wird der selbe Personenparameter zugeordnet. Allerdings kann für Personen, die alle oder kein Item gelöst haben, kein Fähigkeitsparameter geschätzt werden.

177
Q

Was ist die MML?

A

Auch bei der MML werden zunächst nur die Itemparameter geschätzt. Anstatt von pro Person bekannten Rohscores auszugehen, wird nur von einer bestimmten Verteilung der Personenparameter ausgegangen (z.B. NV). Somit müssen anstatt der einzelnen Personenparameter vorerst nur die Parameter der Verteilung (z.B. Mittelwert und Varianz) geschätzt werden. Nach der Schätzung der Itemparameter werden die Personenparameter abermals mittels UML geschätzt. Verzerrungen ergeben sich, wenn die vorab angenommene Verteilung der Personenparameter falsch ist.

178
Q

Wann treten Probleme bei der Parameterschätzung auf?

A

Probleme bei der Parameterschätzung ergeben sich, wenn es kein eindeutig definiertes Maximum der Likelihoodfunktion gibt. Dies ist der Fall, wenn die Funktion:
– multiple Maxima hat, oder
– das Maximum kein Punkt, sondern ein Plateau oder eine Fläche ist.

179
Q

Was besagt die Informationsfunktion?

A

Je ähnlicher die Schwierigkeit eines Items i der Fähigkeit einer Person v ist, umso höher ist die Information, die eine Person über ein Item bzw. ein Item über eine Person liefert. (Höhepunkt wenn Lösungswsk = 0,5)

180
Q

Was kann man aus der Informationsfunktion folgern?

A

Je größer die Information, die man über ein Item bzw. über eine Person sammelt, umso genauer kann man den Item- bzw. Personenparameter schätzen –> Hat man einen fixen Test, so ist die Messgenauigkeit dieses Tests nicht bei allen Personen gleich. Für die Items gilt: je stärker die Itemschwierigkeit von der durchschnittlichen Personenfähigkeit einer Gruppe abweicht umso ungenauer ist die Schätzung der Itemschwierigkeit.

181
Q

Was kann man mit der Information der Informationsfunktion berechnen?

A

Man kann aus der Varianz der Parameterschätzer die Konfidenzintervalle für die geschätzten Parameter bestimmen.

182
Q

Wie kann man überprüfen , ob Items dem Rasch Modell entsprechen? (4)

A

– die grafische Modellkontrolle
– der Wald-Type z-Test nach Fischer und Scheiblechner
– der bedingte Likelihood Quotienten Test nach Andersen
– der Martin-Löf -Test

183
Q

Wie läuft die grafische Modellkontrolle ab?

A

Für die grafische Modellkontrolle werden die Personen in zwei Gruppen eingeteilt und die Itemschwierigkeitsparameter in jeder Gruppe extra geschätzt. –> Item Raschmodell entspricht sollten Schätzungen beider STichproben ca. gleich sein –> x- Achse= Schätzung Gruppe 1, y-Achse= Schätzung Gruppe 2 –> Items die Raschmodell entsprechen liegen nahe 45°!

184
Q

Wie werden die Gruppen in der grafischen Modellkontrolle eingeteilt?

A

– intern (= Rohscore)

– extern (Eigenschaften der Personen)

185
Q

Welche Normierung bei Itemschwierigkeit?

A

Summe 0 Normierung

186
Q

Welche Normierung bei Itemleichtigkeit?

A

Produkt 1 Normierung

187
Q

Was passiert beim Wald-Type z-Test?

A

Beim z-Test werden die in zwei Stichproben (A, B) erhobenen und normierten Itemschwierigkeitsparameter miteinander verglichen.
Ist der Betrag des z-Werts größer als der kritische z-Wert, ist das Ergebnis signifikant und das Modell von Rasch gilt für dieses Item nicht.

188
Q

Welches Problem kann beim z-Test auftreten und wie wird es gelöst?

A

Da der z-Test pro Item erfolgt und demnach die Gefahr der Alpha Überhöhung gegeben ist, kann aus den z-Werten ein Globaltest für alle in einem Test enthaltenen Items berechnet werden.
Ist der chi^2-Wert größer als der kritische, ist das Ergebnis signifikant und man muss zumindest das Item mit dem betragsmäßig größten z-Wert aus dem Test entfernen.

189
Q

Für was außer Modellkontrollen kann der z-Test noch verwendet werden?

A
  • Vergleich der Schwierigkeit zweier unterschiedlicher Items

- Vergleich der Fähigkeit zweier Personen

190
Q

Was passiert beim Likelihood Quotienten Test (LQT)?

A

Die likelihoods zweier Modelle werden miteinander verglichen –> wenn Bedingungen erfüllt, kann man den LQT in eine chi^2-verteilte Prüfgröße umwandeln–> für Modell 1 wird angenommen, dass zwei (oder mehr) Gruppen von Personen unterschiedliche Itemparameter haben. Bei Modell 2 wird davon ausgegangen, dass die Itemparameter in allen Gruppen gleich sind (= spezifische Objektivität). -> Lässt sich kein Unterschied zwischen der Likelihood der beiden Modelle nachweisen(= nicht signifikantes Ergebnis), darf Modell 2 (und damit die Gültigkeit des RM) angenommen werden

191
Q

Welche Bedingungen müssen die Modelle im LQT erfüllen?

A

– Modell 1 muss ein echtes Obermodell von Modell 2 sein (d.h. dass Modell 2 durch Restriktionen von Parametern aus Modell 1 entsteht)
– Modell 2 darf nicht durch 0 setzen von Parametern entstehen
– Modellgültigkeit von Modell 1 muss nachgewiesen sein

192
Q

Was passiert beim Martin-Löf-Test?

A

Der Martin-Löf-Test basiert im Wesentlichen auf derselben Annahme wie der bedingte LQT, jedoch werden nicht die Personen, sondern die Items in zwei Gruppen aufgeteilt. Demnach wird geprüft, ob die Schätzungen der Personenparameter in beiden Itemgruppen gleich sind. Auch hier deutet ein signifikantes Ergebnis auf eine Verletzung der Annahmen des Rasch Modells bei zumindest einem Item hin.

193
Q

Was sind die Birnbaum-Modelle?

A

Birnbaum stellte zwei Erweiterungen des Modells von Rasch vor, indem er unterschiedliche Diskriminations- und Rateparameter pro Item erlaubt. Bei diesen Modellen handelt es sich um:
– das zwei Parameter logistische Modell
und…
– das drei Parameter logistische Modell.
Bei beiden Modellen ergeben sich wegen der relativ großen Zahl an Modellparametern häufig Probleme bei der Parameterschätzung.

194
Q

Welche Parameter gibt es pro Item beim zwei Parameter logistischen Modell?

A
  • Itemschwierigkeitsparameter

- diskriminationsparameter

195
Q

Was ist die Besonderheit beim zwei Parameter logistischen Modell?

A

Aufgrund der unterschiedlichen Diskriminationsparameter gibt es in diesem Modell schneidende IC Kurven, sodass die spezifische Objektivität bei diesem Modell nicht gegeben ist.

196
Q

Welche Parameter pro Item gibt es beim drei Parameter logistischen Modell?

A

– den Itemschwierigkeitsparamter
– den Diskriminationsparameter
– die Ratewahrscheinlichkeit

197
Q

Was ist die Besonderheit am drei Parameter logistischen Modell?

A

Auch hier schneiden die IC Kurven einander!

198
Q

Was ist das linear logistische Testmodell (LLTM)?

A

Das LLTM geht auf Scheiblechner und Fischer zurück und stellt ein restriktiveres Modell als das Modell von Rasch dar. Die ursprüngliche Idee war es, die Schwierigkeit eines dem Modell von Rasch entsprechenden Items auf die Schwierigkeit jener kognitiven Fertigkeiten zurückzuführen, die - aufgrund theoretischer Überlegungen im Vorfeld - der Lösung des Items zugrunde liegen.

199
Q

Wie wird die Gültigkeit des LLTM kontrolliert?

A

Zur Kontrolle der Gültigkeit des LLTM werden die laut LLTM geschätzten Parameter mit den aus dem Modell von Rasch mit Hilfe einer der bereits bekannten Modellkontrollen verglichen.

200
Q

Was ist das Partial Credit Modell?

A

Das Partial Credit Model ist das Rasch Modell für ordinale Daten. Die dahinter liegende Idee ist eine Verallgemeinerung des dichotom logistischen Modells von Rasch. Für letzteres wurde gezeigt, dass es neben der IC Kurve für das Lösen des Items auch eine IC Kurve für das nicht Lösen eines Items gibt.–> Dadurch wird für jeden Fähigkeitsparameter die Wahrscheinlichkeit der Antwort in Kategorie x modelliert. Jene Stellen, ab denen eine andere Kategorie als wahrscheinlichste gilt, werden Schwellen genannt.

201
Q

Aus welchen 3 Modellen besteht das Partial Credit Modell und wie kommen sie zustande?

A

Prinzipiell können die Schwellen in jedem Item anders sein. Da daraus eine sehr große Zahl an Parametern resultiert, können zusätzliche Annahmen getroffen werden, die zu unterschiedlichen Modellen führen. Diese sind:
– das Ratingskalen Modell
– das Äquidstanzmodell – das Dispersionsmodell

202
Q

Äquistanzmodell

A

Die Schwellen sind pro Item gleich weit entfernt

203
Q

Dispersionsmodell

A

Das Verhältnis der Schwellenabstände ist in allen Items dasselbe

204
Q

Ratingskalen Modell

A

Die Schwellenabstände sind in allen Items gleich

205
Q

Welchen Nutzen hat das Partial Credit Modell?

A

Mittels das Partial Credit Modells kann geprüft werden, ob die Stufen eines Items tatsächlich rangskaliert sind. Die Ordnung der Antwortkategorien zeigt sich daran, dass die Schnittpunkte zweier benachbarter Kategorien „geordnet“ sind. Das bedeutet, dass z.B. der Übergang von Kategorie 0 auf 1 bei einer niedrigeren Personenfähigkeit erfolgt, als der Übergang von Kategorie 1 auf 2 usw.