Reliabilität Flashcards

1
Q

def reliabilität

A

Reliabilität = Genauigkeit/Zuverlässigkeit, mit der ein Test ein bestimmtes Merkmal misst, unabhängig davon, ob der Test das gemessene Merkmal messen sollte.
Freiheit von Messfehlern.
Kernkonstrukt der Klassischen Testtheorie.

Die Reliabilität eines Tests ist definiert als der Anteil der Varianz der wahren Werte an der Varianz der beobachteten Testwerte:

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Varianzzerlegung:

A

Für eine einzelne Messung liegt nur die beobachtete Messung X vor. Der individuelle wahre Wert und der Fehleranteil an der Messung lassen sich nicht bestimmen.
Für mehrere bzw. wiederholte Messungen lässt sich aber die Varianz der beobachteten Messwerte zerlegen in “wahre” Varianz und Fehlervarianz.

Var(X) = Var(T) + Var(E)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Voraussetzungen der Reliabilitätsschätzung

A
  • wiederholte Messungen unter vergleichbaren Bedingungen.
  • Angenommen wird die Unkorreliertheit der (unsystematischen) Messfehler unterschiedlicher Messungen.
  • Grad der Übereinstimmung wahrer Werte ist zu definieren.
  • Gleichheit der Fehlervarianzen wiederholter Messungen anzunehmen?

WieAGra

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

inwiefern spielt die Äquivalenz eine Rolle bei der Reliabilität?

A

Wichtig für eine präzise Schätzung der Reliabilität ist die Äquivalenz (Gleichwertigkeit) von Messungen.

Qualität von wiederholten Messungen oft unterschiedlich:
–> Gleichheit der Eigenschaften zwischen zwei Messungen beschrieben durch Äquivalenz.

Von der Äquivalenz hängt es ab, welche Formel zur Schätzung der Reliabilität verwendet wird.

zuerst die Ä von Messungen bestimmen um den passenden Reliabilitätskoeffizienten zu wählen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

welche arten von Äquivalenzen gibt es?

A
  • (streng) parallel
    Alle Items weisen die gleichen wahren Werte und die gleichen Fehlervarianzen auf.
  • im Wesentlichen/essenziell parallel
    Alle Items weisen die gleichen Fehlervarianzen auf, die wahren Werte sind um eine additive Konstante verschoben.
  • tau-äquivalent
    Alle Items weisen die gleichen wahren Werte auf, die Fehlervarianzen unterscheiden sich.
  • im Wesentlichen/essenziell tau-äquivalent
    Die wahren Werte sind um eine additive Konstante verschoben, die Fehlervarianzen unterscheiden sich.
  • tau-kongenerisch
    Test ist faktoriell homogen (alle Items genügen dem Ein-Faktormodell), Messungen haben unterschiedliche Einheiten.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Parallele Messungen:

A

Bei parallelen Messungen sind für jede Person der wahre Wert T und der Messfehler in beiden Messungen gleich. Das heißt, eine Person erzielt in Test A den gleichen
wahren Wert wie in Test B und die Messfehler beider Tests sind gleich.

Korrelation der beiden Messungen mit Außenkriterium gleich hoch.
Höhe der Reliabilität und Validität für beide Messungen gleich.

Bei im Wesentlichen parallelen Messungen ist der wahre Wert in einem Test um eine additive Konstante verschoben.
Durch eine konfirmatorische Faktorenanalyse kann festgestellt werden, ob alle Faktorladungen und Fehlervarianzen gleich hoch sind (= im Wesentlichen parallele Messung).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

tau-kongenerische Messungen:

A

Kongenerische Messungen bilden, abgesehen von einer additiven Konstanten und einer multiplikative Konstante — dieselbe Fähigkeit ab.

Tests, Testteile oder Items dürfen unterschiedliche Maßeinheiten, Mittelwerte und Fehlervarianzen aufweisen, aber die wahren Werte sollen perfekt miteinander korrelieren.

Items sind kongenerisch, wenn sie eindimensional sind:
Faktorenanalyse: Alle Items laden nur auf einem Faktor (Faktorladungen und Fehlervarianzen der Items auf dem Faktor können variieren).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Methoden zur Reliabilitätsschätzung

A

Testhalbierung,
interne Konsistenz
Paralleltest
Retest

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Testhalbierung

A

Einmalige Durchführung eines Tests an einer Stichprobe.

Der Test wird nach bestimmten Methoden in zwei Testhälften unterteilt, wobei beide Testhälften parallel sein sollten:

  • Odd-Even
  • Zufällige Aufteilung
  • Itemzwillinge
  • Aufteilung der Aufgaben nach Testzeit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Odd-Even Methode

A

Odd-Even Methode z.B. bei Schnelligkeitstests beliebt, weil sich Übungs- oder Ermüdungse ekte gleichmäßig auf die Testteile verteilen (vgl. Stelzl und Tent, 1993).
Sie führt bei klassischen Schnelligkeitstests häufig zu einer hohen Reliabilität (vorausgesetzt es unterlaufen den Probanden kaum Fehler).

Nur geeignet, wenn beide Testhälften das selbe Merkmal messen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Interne Konsistenz

A

Einmalige Durchführung eines Tests an einer Stichprobe.

Überprüfung des inneren Zusammenhangs der Items unter Berücksichtigung der Testlänge.

Test kann in so viele “Einzeltests” zerlegt werden, wie er Items besitzt.

Äquivalenz mindestens im Wesentlichen tau-äquivalent

Berechnung:
Berechnung erfolgt i.d.R. auf Basis von Itemvarianzen und Itemkovarianzen (z.B. Cronbachs Alpha).

Anwendung:
Sinnvoll, wenn homogene Merkmalsbereiche erfasst werden
sollen.
Auch anwendbar, wenn die Messung nur einmal durchführbar ist (Erfragung momentaner Zustände). Weniger sinnvoll für Schnelligkeitstests sowie Tests, die heterogene Konstrukte erfassen sollen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Paralleltestmethode

A

Darbietung zweier Parallelformen eines Tests an der gleichen Stichprobe, wobei die Tests „parallel“ sein sollten

Parallelformen nicht immer möglich

Wegen geringen Zeitabstands zwischen den beiden Testungen ähnelt die Paralleltestmethode der Testhalbierungsmethode.

Berechnung:
Korrelation der Rohwertpaare aus beiden Testformen.

Anwendung:
Anwendbar bei Niveau- und Schnelligkeitstests
Auch bei parallelen Tests Übungs- und Transfere ekte wahrscheinlich; Kontrolle mittels „cross-over designs“
Gruppe 1: Test A - Test B Gruppe 2: Test B - Test A

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Retestmethode

A

Wiederholte Darbietung des gleichen Tests an einer Stichprobe in gewissem Zeitabstand.
Zeitabstand sorgfältig wählen: beinflusst ggf. Höhe des Korrelationskoe zienten!
Übungs-/ Erinnerungse ekte
In der Regel wird der Korrelationskoe zient mit größerem Zeitabstand kleiner.

Vergleichbare Durchführungsbedingungen zu beiden Testzeiten.

Koeffzient auch Stabilitätskoeffzient genannt.

Berechnung:
Korrelation der Rohwertpaare zwischen der ersten und zweiten Testung.

Anwendung:
Bei Speedtests, bei denen interne Konsistenz wegen
Itemhomogenität zu Reliabilitätsüberschätzung führen kann.
Bei Persönlichkeitstests, die zeitlich stabile Merkmale erfassen sollen.
Generell bei Tests anwendbar, bei denen Lern- und Übungse ekte keine große Rolle spielen oder die sich aufgrund der Breite des Konstrukts nicht so gut zur Schätzung der Reliabilität in einer Session eignen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Testhalbierungskoe zienten

A

Einfache Korrelation der Testhälften unterschätzt Reliabilität i.d.R.
Korrekturformeln zur Aufwertung der Korrelation auf tatsächliche Testlänge:
Messung parallel
- Spearman-Brown-Formel (Empfohlen, wenn beide Testhälften gleich groß sind.)
- Formel von Kristof (bei kleinem N)

Messung tau-äquivalent

  • Formel von Guttman (Spezialfall des –-Koe zienten von Cronbach für zwei Testhälften.)
  • Formel von Feldt (ungleich große Testteile)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Cronbach-alpha

A

Cronbach-alpha

  • Der Cronbach-alpha-Koe zient gibt in Abhängigkeit von der Itemanzahl die Höhe der mittleren Itemzusammenhänge an.
  • Korrelieren die Items positiv miteinander, gibt es einen positiven Zusammenhang zwischen der Höhe des Koe zienten und Anzahl der Testitems.
  • Items, die mit anderen negativ korrelieren, reduzieren den Koe zienten.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Gründe negativer C.A

A
  • Negatives Cronbach’s alpha, wenn Verhältnis zwischen der Summe der Einzelvarianzen und der Gesamtvarianz größer als 1
  • Mögliche Gründe:
  • Negativ gepolte Items oder hohe negative Trennschärfen
  • Die Items sind nicht eindimensional
  • Geringe Probandenzahlen
  • Ausreißerwerte oder Inkonsistenzen in der Beantwortung
  • Ein negativer Wert ist eigentlich nicht zulässig.
17
Q

unterschied Cronbach’s alpha und MIC

A

Cronbach’s alpha:
Kombinierter Index, der die mittlere Itembeziehung und die Itemanzahl berücksichtigt (kein Homogenitätsindex).

Mittlere Interitemkorrelation (MIC):
Höhe der mittleren Interitemkorrelation (MIC) aller Skalenitems als Homogenitätsmaß: In welchem Ausmaß messen die Items das Gleiche?
Cronbach’s alpha und MIC können diskrepant sein.

18
Q

Faktoren, welche die Reliabilität verbessern/ verschlechtern können:

A

Homogenität/Trennschärfe
Streuung der Testwerte
Messfehler
Objektivität

MOSH

19
Q

Homogenität und Heterogenität

A

Tests mit homogenem Inhaltsbereich haben durch den enger umgrenzten/ konstanteren Messgegenstand meistens eine höhere Konsistenz; auch, weil sie häufig ähnliche Items beinhalten (z.B. Speedtests).

Zusätzlich erhöht die Testlänge die Reliabilität in homogenen Tests (höheres Cronbach-alpha).

Tests mit heterogenem Inhaltsbereich decken ein breiteres Konstrukt ab und haben daher mit höherer Wahrscheinlichkeit geringere interne Konsistenzen (s. z.B. Berufseignungstests), können aber durchaus höhere Retestreliabilitäten aufweisen.

20
Q

Streuung der Testkennwerte

A

Eine hohe Streuung der Testkennwerte erhöht meistens die Reliabilität.

Die Streuung kann unter bestimmten Umständen von der Itemschwierigkeit abhängen:

  • Immer wenn ein Großteil der Probanden Randbereiche einer Antwortskala verwenden, führt dies zu einer geringen oder hohen Itemschwierigkeit.
  • Die Trennschärfe ist in diesem Fall meistens gering, da die Personen wegen ihres ähnlichen Antwortverhaltens (geringe Streuung) meistens schlecht voneinander zu unterscheiden sind.

Hohe Streuung auf Grund von Ausreißern, unterschiedliches Ankreuzverhalten oder Teilpopulationen können aber auch die Reliabilität verringern.

21
Q

Möglichkeiten zur Verbesserung der Reliabilität

A
  • Klare Test- und Itemformulierung
  • Klare Auswertungsvorgaben
  • Items mit geringer Trennschärfe aus dem Test entfernen (Achtung: Inhaltliche Gesichtspunkte zu berücksichtigen!)
  • Testverlängerung mit homogenen Items

Achtung: Ziel ist nicht die Entwicklung einer hochreliablen, aber inhaltsarmen Skala!

22
Q

Minderungskorrektur

A

Messinstrumente mit einer schlechten Reliabilität führen zu einer Unterschätzung des Zusammenhangs zwischen zwei latenten Merkmalen.

Bei geringer Reliabilität von Testkennwerten, kann die Korrelation der Testkennwerte (geschätzte latente Merkmale) anhand der Reliabilität(en) besser geschätzt werden.

doppelten Minderungskorrektur: berücksichtigt fehlende Reliabilität bei beiden Tests

23
Q

Mögliche Ursachen Minderungskorrektur

A
  • Minderungskorrigierte Korrelationen können größer als 1 werden.
  • Dies ist immer dann der Fall, wenn die Reliabilität der Tests unterschätzt wird.
  • Mögliche Ursachen:
  • Die Voraussetzungen für die Berechnung des jeweiligen Reliabilitätsschätzers sind verletzt.
  • Die Skala ist nicht eindimensional.
  • Korrelierte Messfehler mindern oder erhöhen die Korrelation zwischen zwei Werten.
24
Q

welche gründe Items zu eliminieren?

A

Es gibt zwei Hauptgründe, Items zu eliminieren:
statistische Kriterien
inhaltliche Gründe

Der Inhalt der Items muss bei der Itemanalyse immer mit einbezogen werden.

Möglicherweise ist eine Revision der Itemformulierung sinnvoller als ein Aussondern des Items (wenn das Item inhaltlich passt).

Man muss sich vorher genau überlegen, ob man einen homogenen oder heterogenen Test konstruieren will.
Im Falle des hier eingesetzten Aggression Questionnaires von Buss & Perry (1992), der ein recht breites Konstrukt auf höherer Abstraktionsebene erfasst, kann es sinnvoll sein, ein Item aufgrund inhaltlicher Aspekte in der Skala zu belassen.

25
Q

Veränderung der Reliabilität bei Elimination einzelner Items

A

Die Elimination einzelner Items wirkt sich auch auf die Realibilität aus.

Erhöht sich das Cronbach-alpha bei der Elimination eines Items im Verhältnis zum Cronbach-alpha der gesamten Skala, kann dieses Item ausgesondert werden, da es inhaltlich „nicht gut“ zu der Skala passt und die Messgenauigkeit bei Aufnahme des Items in die Skala sinkt.

Aber: Es kann nicht Ziel und Zweck der Testkonstruktion sein, ausschließlich die Homogenität der Skalen zu erhöhen.

–> sukzessiv weil Reliabilität sich verändernkann durch Elimination

26
Q

Beurteilung der Höhe von Testkennwerten ist von was abhängig?

A

Eine generelle Beurteilung von Schwierigkeitsindizes, Trennschärfen, Reliabilitäten und Validitäten ist schwierig, da dies von verschiedenen Faktoren abhängt:

  • vom Kontext, wie zum Beispiel der Art des verwendeten Tests (objektiver Test, Persönlichkeitstest, projektiver Test),
  • der untersuchten Stichprobe (homogen/heterogen),
  • der Art und der Breite des gemessenen Merkmals (breiter oder enger Merkmalsausschnitt).