7. VL. Reliabilität 2: Vier Methoden der Reliabilitätsbestimmung und der Beurteilung der Reliabilität Flashcards

1
Q

Repetition: Welche 2 Methoden zur Reliabilitätsbestimmung gibt es?

A
  1. Retest-Reliabilität
  2. Paralleltest-Reliabilität
  3. Splithalf-Reliabilität
  4. Innere KOnsistenz
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Statistisch beruhen alle diese Methoden auf Korrelationen und der Annahme der Domain-Sampling-Modelle der KTT. Was bedeutet das?

A
  • Es gibt ein Universum von möglichen Items zu einem Merkmal
  • daraus lassen sich parallele Itemstichproben ziehen (zufällig!)
  • Reliabilitäts-Analyse: Wir schätzen, wie gross der Fehler ist, wenn wir vom Testwert vom wahren Wert schätzen

–> Je grösser die Itemstichprobe, damit je mehr Items, desto besser wird das Universum repräsentiert und desto höher ist die Reliabilität

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Test-Retest-Reliabilität!

  1. Definiere
  2. Voraussetzungen
  3. Anwendung
  4. Probleme
  5. Berechnung
A
  1. Definition: Ausmass, indem bei denselben Probanden und mit demselben Test die Ergebnisse mehrerer Messungen (in einem angemessenen Zeitabstand) miteinander korrelieren - Autokorrelation!
  2. Voraussetzung: konstante Test- und Fehlerwerte
  3. Anwendung: Speedtest, Persönlichkeitstest (stabiles Merkmal)
  4. Probleme:
    - zeitaufwändig
    - teuer
    - carry-over-Effekte
    - Merkmalsfluktuation
  5. Berechnung:
    Rel = Var (t) / Var (x) = Corr (x1, x2)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist ein Carry-Over-Effekt und was sind mögliche Einflussfaktoren?

Wie sollte das Retes-Intervall aussehen?

A

Carry-over-Effekt: Unterschätzung der Reliabilität bei unsystematischen Veränderungen. Niedrige Reliabilität, falls das Merkmal nicht stabil ist.

Einflussfaktoren:

  • Testabstand (Intervall)
  • Gedächtniseffekte
  • Übungs- und Lerneffekte
  • Merkmalsfluktuation

Falls das Retest-Interval…
… zu kurz ist, dann höhere Wahr. für Carry-Over
… zu lang ist, dann sind Merkmalsveränderungen mögl.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Paralleltest-Reliabilität:

  1. Definiere
  2. Berechung
  3. Voraussetzung
  4. Anwendung
A
  1. Paralleltest-Reliabilität: Korrelation zwischen Test A und seinem Paralleltest B bei denselben Probanden. Die Übereinstimmung der Testscores = Reliabilität.
  2. Berechung: Rel (x) = Corr (xA, xB)
  3. Voraussetzung: Test A und B sind äquivalent.
    - > gleiche Testwert- und Fehlervarianz. Das gleiche Merkmal wird mit der gleichen Genauigkeit (Reliabilität) und der gleichen Validität gemessen.
  4. Anwendung: Niveau- und Speedtests, für Persönlichkeitstest meist zu aufwändig um zu konstruieren.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Paralleltest-Reliabilität:

  1. Probleme
A
  1. Probleme:
    - schwierig, einen äquivalenten Test zu konstruieren
    - deshalb deskriptive Überprüfung, ob die wichtigsten Kennwerte äquivalent sind (Mittelwert, Varianz, SI ect, aber auch Validität und Reliabilität der Einzeltests.)
    - besser mit konfirmatorischer Faktorenanalyse testen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Paralleltest-Reliabilität:

6. Einflussfaktoren:

A
  1. Einflussfaktoren:
    - Carry-Over-Effekte: ist zwar vermindert, aber das Übertragen von Lösungsprinzipien ist trotzdem möglich.
    - Item-Unterschiede: Merkmal wird mit ähnlichen und nicht mit identischen Items berechnet
    - Testabstand: eher kürzer zu wählen
    - Reliabilität der einzelnen Testformen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wie hoch kann die Paralleltest-Reliabilität höchstens sein?

A

Die Paralleltest-Reliabilität kann nur so hoch sein, wie die Reliabilität der einzelnen Tests oder Testformen, weil:

Maximal mögliche Korrelation zwischen zwei Variablen/Tests/Merkmalen:
Rmax = R1 * R2 (Wurzel ziehen)

  • Falls einer der beiden Tests weniger reliabel wäre, dann würde die Reliabilität der Parallelform niedriger ausfallen und die tatsächliche Reliabilität der Testformen würde unterschätzt.
  • es ist möglich, dass die Paralleltestreliabilität niedriger ausfällt als jede der beiden Testformen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Splithalf-Reliabilität

  1. Definition
  2. Voraussetzung
  3. Methoden der Aufteilung
A
  1. Definiton: Korrelation zwischen zwei Hälften desselben Tests bei denselben Versuchspersonen.
    - Vorgabe eines einzigen Tests (einmalige Durchführung)
    - Bildung von zwei parallelen Hälften (desselben Tests)
    - Bildung eines Testscores je Pb und Testhälfte
    - Korrelation der zwei Testscores
  2. Voraussetzung: Testhälften sind wirklich äquivalent und gleich lang
  3. Methoden zur Aufteilung:
    - Zufällig
    - Odd-Even
    - Itemzwillinge
    - Aufteilung nach Testzeit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Splithalf-Reliabilität:

  1. Anwendung
  2. Berechnung
A
  1. Anwendung: Wenn die anderen Methoden nicht praktisch sind
  2. Berechnung:
    - 1. Korrelation der beiden Tetshälften
    - 2. Ander dann: Aufwertung der Korrelation durch Korrekturformel

Warum nicht einfach Korrelation der beiden Hälften?

  • jede Hälfte hat nur die Hälfte der Aussagekraft des ganzen Tests
  • d.h. Halbtestkorrelation entspricht nur der Reliabilität eines Tests halber Länge (Reliabilität wird in der Regel geringen bei sinkender Itemzahl)

Spearman-Brown Korrektur:
Rel (2l) = 2Rel / 1+Rel

–> ohne Korrektur wird die Reliabilität unterschätzt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Beschreibe die Verallgemeinerung der Spearman-Brown-Formel.

A

Wichtige Funktion ist die Vorausschätzung:

  1. Wie hoch wird die Reliabilität ausfallen, wenn ein Test um eine bestimmte Anzahl von Items verlängert oder verkürzt wird?
  2. Wie viele Items sind einem Test hinzuzufügen, um eine bestimmte Reliabilitätshöhe zu erreichen?

Berechnung:
Rel (kl) = k Rel / 1+ (k-1) * Rel
k = Itemzahl nach Korrektur / Itemzahl vor Korrektur

Es gilt bei der Verlängerung:
- k > 1
- der Zähler nimmt mehr zu als der Nenner. d.h
der Anteil der wahren Varianz nimmt stärker zu als derjenige der Fehlervarianz, Reliabilität steigt!
- der Reliabilitätsgewinn ist grösser bei anfänglich tiefer Reliabilität

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Interne Konsistenz:

  1. Definition
    2 Vorgehen
  2. Voraussetzung
  3. Anwendung
A
  1. Interne Konsistenz: Ausmass der Zusammenhänge (Interintemkorrelation) der Items. Wiederspiegelt das Ausmass, zu welchem die einzelnen Probanden alle Items in gleicher Weise beantworten.
    - Erweiterung der Splithalf: Ein Test wird in so viele Teile/Paralleltests wie Items zerlegt. Der mittlere Splithalf Koeffizient der Teile wird ermittelt.
  2. Vorgehen: Vorgabe eines einzigen Tests, einmalige Durchführung
  3. Voraussetzung: Test / Merkmal ist homogen, d.h. alle Items erfassen das gleiche Merkmal (und sind zumindest essentiell tau-äquivalent)
  4. Anwendung:
    - sinnvoll bei homogenen Merkmalen und einmaliger Messung (z.B Niveau- und Persönlichkeitstests, momentane Zustände)
    - nicht angebracht bei Speedtests, bei Tests mit steigender Schwierigkeit oder bei heterogenen Tests / Merkmalen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wie wird die Interne Konsistenz berechnet?

A

Es gibt verschiedene Konsistenzkoeffizienten (alle basieren grundsätzlich auf Interitemkorrelation)

  • der am häufigste gebrauchte ist Cronbachs-Alpha
  • falls nicht essentiell tau-äquivalent, dann entspricht Alpha der unteren Grenze (konservativer Index der Reliablität)
  • Alpha ist abhängig von Anzahl Items und Grösse der Item-Interkorrelation
  • Wenn Items unkorreliert, dann Itemvarianz gleich Testvarianz und Alpha = 0.
  • Alpha ist höher bei mehr Items, solange diese positiv miteinander korrelieren.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wie kann Alpha interpretiert werden?

A
  • Alpha ist kein Beleg für die Eindimensionalität
  • Alpha kann auch bei mehrdimensionalen Merkmalen hoch sein, falls die Dimensionen miteinander korrelieren.
  • Alpha misst nur Zusammenhänge und keine Divergenzen, vgl. Faktorenanalyse
  • Alpha ist ein Mass für die Interne Konsistenz
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was bedeutet ein tiefer Cronbachs-Alpha-Koeffizient?

A
  • Items sind nicht eindimensional
  • geringe Probandenzahlen produzieren hohe Stichprobenfehler
  • Ausreisser oder Inkonsistenzen in der Beantwortung führen zu negativen Kovarianzen
  • Kodierung von negative gepoolten Items sind mit positiv gepoolten Items vermengt
  • Items messen etwas inhaltlich Verschiedenes und / oder Entgegengesetztes
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Anzustrebende Höhe der Reliabilität:

Art des zu erfassenden Merkmals und Vergleich mit konkurrierenden Verfahren

A

Idealerweise so hoch wie möglich, aber

.. Nicht alle Konstrukte sind gleich reliabel erfassbar. (z.B Einstellung nich so präzise erfassbar wie Intelligenz)

17
Q

Anzustrebende Höhe der Reliabilität:

Individual - vs. Kollektivdiagnostik

A

Idealerweise so hoch wie möglich, aber
.. Was sind die Konsequenzen der Diagnostik?
- Individualdiagnostik: Gutachten und Empfehlungen (.90 oder .95)
- Kollektivdiagnostik: Forschung, Gruppenmittelwerte trotzdem korrekt (.70-.80 meist gut genug)
- Für Screeing-Zwecke hingegen kann Reliabilität niedriger sein

Wichtiger Index für die Interpretation der Reliabilität ist der SMF.

18
Q

Anzustrebende Höhe der Reliabilität:

Einsatzbedingungen und Kosten-Nutzen-Abwägen

A

Idealerweise so hoch wie möglich, aber
.. Was ist unter gegebenen Bedingungen machbar?
- Was ist ein Unternehmen bereit zu investieren?
- Abwägen der Reliabilität mit Nebengütekriterien wie Testökonomie, Nützlichkeit, Zumutbarkeit
- Möglichkeit von adaptivem Testen

19
Q

Anzustrebende Höhe der Reliabilität:

Berechnung der Reliablität

A

Idealerweise so hoch wie möglich, aber
.. nicht alle Arten der Reliabilität sind gleich hoch. z.B Test-Retest Reliabilität ist meist niedriger als interne Konsistenz bei homogenen Tests.

20
Q

Was ist der Einfluss der Homogenität auf die Reliabilität?

A
  • homogene Tests sind eher reliabel als heterogene Tests
  • je mehr homogene Items dazu gefügt werden, desto höher die interne Konsistenz
  • heterogene Tests enthalten unterschiedliche Items (multiple Facetten) darum nur bedingt reliabel
  • aber heterogene Tests können dafür oft ein externes Kriterium gut voraussagen

Fazit: Stets beachten, wofür ein Test kreiert wurde, bevor man ihn für eigene Zwecke benutzt.

21
Q

Was kann man bei niedriger Reliabilität tun?

A
  1. Standardisierung der Testdurchführung verbessern
    (klare Testinstruktion und Itemformulierung!)
  2. Streuung der Testwerte
    (höhere Streuung = höhere Reliabilität, Achtung Ausreisser)
  3. Item- und Faktorenanalyse
    (Schlechte Items eliminieren! Jedes Item soll auf einen Faktor hoch laden - Unidimensional)
  4. Testverlängerung (Nach Domain-Sampling-Methode, je grösser die Stichprobe desto besser wird das Merkmal repräsentiert)
22
Q

Ergänzung zur IRT.

A

IRT: Genauigkeit einzelner Messungen in Abhängigkeit von

  1. Der Schwierigkeit der Items
  2. Der Merkmalsausprägung der untersuchten Person