9. VL: Bestimmung der Güte von Multi-Item-Skalen + Tipps zur Dateneingabe mit SPSS Flashcards

Question 1

Q

Welche 3 Hauptgütekriterien haben eine zentrale Rolle?

Answer

A

Objektivität
Reliabilität
Validität

Question 2

Q

Was wird bei der Konstruktion einer Skala angestrebt?

Answer

A

Es wird angestrebt, dass eine Skala bei minimalem Aufwand (Länge, Durchführungs- und Auswertungsaufwand etc.) eine möglichst maximale Qualität aufweist.

Question 3

Q

Was ist die Objektivität und welche 3 Arten davon gibt es?

Answer

A

Das Ausmass, in dem das Untersuchungsresultat unabhängig ist von jeglichen Einflüssen ausserhalb der untersuchten Person.

Durchführungsobjektivität
Auswertungsobjektivität
Interpretationsobjektivität

Question 4

Q

Auf was bezieht sich die Durchführungsobjektivität?

Answer

A

Bezieht sich auf mögliche verzerrende Einflüsse aufgrund variierender Untersuchungsbedingungen.

Tipp:
Die Befragung sollte unter möglichst standardisierten Bedingungen durchgeführt werden, um eine hohe Durchführungsobjektivität zu gewährleisten.

Question 5

Q

Auf was bezieht sich die Auswertungsobjektivität?

Answer

A

Bezieht sich auf mögliche Fehler, die bei der Umsetzung der unmittelbaren Reaktionen der Befragten in Zahlwerte auftreten können.

Tipp:
Möglichst eindeutige Vorgaben zur Dateneingabe und Datentransformation (Umgang mit fehlenden Werten, Kreuzen zwischen Kästchen, Rekodierungen, Klassifikation offener Antworten etc.)

Question 6

Q

Auf was bezieht sich die Interpretationsobjektivität?

Answer

A

Bezieht sich auf mögliche Unterschiede bei den Schlussfolgerungen der numerischen Befragungsergebnisse in Abhängigkeit von der interpretierenden Person.

Tipp:
Angabe von Vergleichswerten (Mittelwerte, Streuungen & Konfidenzintervalle) und eindeutigen Skalenbeschreibungen.

Question 7

Q

Was ist die Reliabilität und welche Formen gibt es davon?

Answer

A

Reliabilität = Die Genauigkeit, mit der eine Skala ein Merkmal misst.

oder auch: Die Genauigkeit, mit der eine Skala das misst, was sie misst (unabhängig davon, ob sie das misst, was sie messen soll –> siehe Validität).

Retest-Reliabilität
Paralleltest-Reliabilität
Split-Half-Reliabilität
Konsistenzanalyse

Question 8

Q

Wie misst man die Retest-Reliabilität?

Answer

A

Der Fragebogen wird den Untersuchungsteilnehmern nach einem gewissen Zeitintervall erneut vorgegeben.

Die Korrelation der ersten Messung mit der zweiten Messung wird als Index für die Reliabilität des FBs angesehen.

Voraussetzung:
Ist nur sinnvoll bei „stabilen“ Merkmalen und wenn Erinnerungseffekte an die bei der ersten Messung gegebenen Antworten weitgehend ausgeschlossen sind (die Messung soll ja in der Regel kein „Gedächtnis-Test“ sein).

Question 9

Q

Wie geht man bei der Paralleltest-Reliabilität vor?

Answer

A

Zwei möglichst vergleichbare Fragebögen werden zeitgleich vorgegeben.

Die Korrelation der beiden Fragebögen wird als Index für die Reliabilität angesehen.

Vorteil:
Erinnerungseffekte werden ausgeschlossen.

Nachteil:
Die Konstruktion eines guten, d.h. wirklich „parallelen“ Verfahrens ist sehr aufwändig und schwierig.

Question 10

Q

Wie geht man bei der Split-Half-Reliabilität vor?

Answer

A

Der Fragebogen wird vorgelegt. Bei der Auswertung werden die Items eines Fragebogens in zwei möglichst äquivalente Teile aufgeteilt.

Die Korrelation zwischen den Antworten auf die beiden Fragebogenhälften wird bestimmt.

Da die Split-Half-Reliabilität im Gegensatz zur Paralleltest-Reliabilität nur auf der Hälfte der Items basiert, zugleich jedoch die Reliabilität mit steigender Itemanzahl wächst, wird hierbei die tatsächliche Reliabilität unterschätzt.

DIE UNTERSCHÄTZUNG DER RELIABILITÄT SOLLTE MITTELS SPEARMAN-BROWN-FORMEL FÜR TESTVERDOPPELUNG KORRIGIERT WERDEN!

Question 11

Q

Auf was muss VOR der Berechnung der Split-Half-Reliabilität geachtet werden?

Answer

A

Alle Items müssen in die selbe Richtung des zu erfassenden Merkmals gepolt sein!

Hohe Zahlwerte müssen z.B. für jedes Item eine positive Ausprägung des interessierenden Merkmals anzeigen.

Um dies zu erreichen, müssen evtl. einige Items recodiert werden!

Question 12

Q

Wie setzt sich die Konsistenzanalyse zusammen?

Answer

A

Die Konsistenzsanalyse ist eine Erweiterung der Split-Half-Methode.

Hierbei wird der Fragebogen nicht nur in zwei Hälften unterteilt, sondern jedes einzelne Item als eigenständiger Fragebogenteil („Parallel-Test“) betrachtet und es werden die Zusammenhänge zwischen allen Einzelitems analysiert.

Als Standardmethode zur Berechnung der inneren Konsistenz hat sich der Alpha-Koeffizient nach Cronbach (1951) durchgesetzt. Alpha basiert im Prinzip auf einer „test-längen-korrigierten“ durchschnittlichen Korrelation zwischen allen Items.

Achtung:
Auch vor Berechnung der inneren Konsistenz müssen alle Items in die selbe Richtung des zu erfassenden Merkmals gepolt sein!

Question 13

Q

Wie soll man die Reliabilitätskoeffizienten beurteilen?

Answer

A

Die Höhe von Reliabilitätskoeffizienten hängt von einer Vielzahl von Faktoren ab:

Itemanzahl
Je mehr Items eine Skala enthält, desto höhere Reliabilitätskoeffizienten sind bei einer Konsistenzanalyse zu erwarten.
Inhaltliche Heterogenität
Wenn die Items inhaltlich recht heterogen sind, sind niedrigere interne Konsistenzen zu erwarten.
Zeitlicher Abstand
Bei Retest-Methode: Bei geringerem zeitlichen Abstand zwischen den Messungen werden i.d.R. höhere Retest-Reliabilitäten erreicht.

Question 14

Q

Ob die Reliabilität eines FB als gut oder schlecht anzusehen ist, hängt auch vom Verwendungszweck ab. Wann braucht man welchen Reliabilitätswert?

Answer

A

Für Individualdiagnosen sollten sehr hohe Reliabilitätswerte erreicht werden (möglichst > .90).

Für Gruppenvergleiche werden hingegen Reliabilitäten > .70 oft schon als befriedigend und > .80 als gut bewertet.

Question 15

Q

Um eine „optimale“ Skala zu konstruieren, sollte man auch immer die Gütekriterien der einzelnen Items analysieren. Welche Gütekriterien von Einzel-Items gibt es?

Answer

A

Itemschwierigkeit
Item-Trennschärfe
Item-Varianz
Item-Standardabweichung
Reliabilitätsindex
Cronbachs Alpha

Question 16

Q

Was bezeichnet die Itemschwierigkeit?

Answer

A

Bezeichnet den Anteil der Personen, die das Item „gelöst“ haben.

Bei Fragebögen ist die Bezeichnung „Itemschwierigkeit“ oft etwas irreführend. Bei dichotomen Items (z.B. vom Typ ja/nein) wird hierunter meist der Anteil der Personen verstanden, die das Item als „zutreffend“ (d.h. „ja“ bzw. den Wert „1“) angekreuzt haben.

Bei intervall-skalierten Items (z.B. vom Likert-Typ) wird als Schwierigkeitsindex meist der Itemmittelwert genutzt.

Items mit extremen Schwierigkeiten sind wenig geeignet, zwischen Personen zu differenzieren (entweder „lösen“ fast alle oder fast niemand das Item). Meist akzeptiert man Items, deren Schwierigkeitsindex zwischen 0.3 und 0.7 liegt. Jedoch sollte man dann, wenn man auch Extremgruppen noch gut differenzieren will, von dieser Regel abweichen.

Question 17

Q

Was bezeichnet die Item-Trennschärfe?

Answer

A

Bezeichnet die Korrelation (rit) zwischen dem Item und der Skala, aus der das Item stammt.

Die Trennschärfe sollte möglichst hoch sein. Unterste Grenze ist per Konvention meist eine Trennschärfe von rit = 0.30.

Aus bestimmten Gründen kann man jedoch auch Items mit recht niedrigen Trennschärfen in die endgültige Skala aufnehmen. Dies sollte beispielsweise dann geschehen, wenn der durch dieses Item abgebildete Inhalt sehr bedeutsam erscheint und ich keine anderen Items zur Verfügung habe.

Question 18

Q

Wann und weshalb wird die korrigierte Itemtrennschärfe berechnet?

Answer

A

Die Korrelation zwischen Item und Skala ist „künstlich“ erhöht, denn die Skala enthält neben den anderen Items auch das interessierende Item selbst.

Aus diesem Grunde wird insbes. bei kurzen Skalen die sog. korrigierte Itemtrennschärfe berechnet, d.h. die Korrelation zwischen einem Item und der Skala ohne dieses Item.

Question 19

Q

Was gibt die Item-Varianz an?

Answer

A

Gibt die Varianz der Antworten der Vpn auf das jeweilige Item an.

Question 20

Q

Was gibt die Item-Standardabweichung an?

Answer

A

Gibt die Standardabweichung der Antworten der Vpn auf das jeweilige Item an.

Question 21

Q

Wie gross sollte die Item-Varianz und Item-Standardabweichung sein?

Answer

A

Sie sollte möglichst deutlich grösser als Null sein, d.h. die Vpn sollten nicht alle denselben Wert „angekreuzt“ haben (ansonsten differenziert das Item nicht zwischen den Vpn).

Question 22

Q

Was ist der Reliabilitätsindex NACH DER DEFINITION VON Lienert & Raatz, 1989 bzw. Gullikson, 1950?

Answer

A

Der Reliabilitätsindex eines Items ist definiert durch das Produkt der Itemstandardabweichung und der Item-Trennschärfe.

Bevorzugt werden sollten Items mit einem hohen Reliabilitätsindex.

Die Idee ist hierbei wie folgt:
Weisen zwei Items ähnlich hohe Trennschärfen auf, trägt dasjenige Item mehr zur Reliabilität der Skala bei, welches eine grössere Streuung aufweist, denn es trägt absolut gesehen mehr zur „wahren“ Varianz des Tests bei (es „hat“ ja mehr davon).

Question 23

Q

Wie sieht Cronbachs Alpha der Skala mit und ohne spezielles Item aus?

Answer

A

Über die Berechnung von Cronbachs Alpha kann man zugleich Informationen über die Güte der einzelnen Items gewinnen.

Hierbei wird berechnet, wie hoch das Cronbach-Alpha einer Skala ist, die jeweils eines der Items der Gesamtskala nicht enthält.

Wenn der Ausschluss eines Items zu einer Erhöhung der inneren Konsistenz führt, ist dies ein Hinweis darauf, es bei der Skalenkonstruktion nicht zu berücksichtigen.

Eine solche Alpha-Verringerung kann jedoch auch dann erfolgen, wenn dieses Item das einzige ist, welches einen bestimmten - und eventuell unverzichtbaren - inhaltlichen Aspekt des zu erfassenden Konstruktes enthält. Dann sollte man das Item evtl. dennoch beibehalten!

Question 24

Q

Was ist Validität und welche Arten vol Validität gibt es?

Answer

A

Die Genauigkeit, mit der ein Verfahren das misst oder vorhersagt, was es messen oder vorhersagen soll.

Inhaltsvalidität
Kriteriumsvalidität
Konstruktvalidität

Question 25

Q

Auf was beruht die Inhaltsvalidität (Kontentvalidität)?

Answer

A

Die Inhaltsvalidität beruht auf einer inhaltlichen Analyse des Messverfahrens, um festzustellen, ob die verwendeten Items den zu messenden Merkmalsbereich auch tatsächlich hinreichend genau repräsentieren.

Question 26

Q

Wie wird die Kriteriumsvalidität gemessen?

Answer

A

Übereinstimmung des mit einem FB erzielten Ergebnisses mit den Ergebnissen für Aussenkriterien (z.B. Schulerfolg, Wahlverhalten etc.).

Je nachdem, wann das Kriterium erhoben wurde, unterscheidet man zwischen retrograder, konkurrenter und prognostischer (Kriteriums-)Validität

Question 27

Q

Ein Messverfahren weist Konstruktvalidität auf, wenn…

Answer

A

die Angemessenheit der Schlussfolgerungen von den Messdaten (Skalenwerten) auf zugrunde liegende psychologische Merkmale (»Konstrukte«, »latente Variablen«, »Traits«), wie Fähigkeiten, Charakterzüge, Einstellungen etc. empirisch belegt wurden.

Question 28

Q

Konstruktvalidität untergliedert sich in zwei Teilaspekte. Welche?

Answer

A

Konvergente Validität
Ein Messverfahren soll mit solchen Verfahren bzw. Kriterien hoch zusammenhängen, bei denen man hohe Zusammenhänge vermutet.
Diskriminante Validität
und sich zugleich von solchen Messverfahren abheben, die etwas anderes messen.

Question 29

Q

Konstruktvalidierung mittels Dimensionalitätsüberprüfung:

Answer

A

Wird angenommen, dass ein Messinstrument theoretisch und empirisch voneinander unterscheidbare Teilaspekte erfasst (z.B. verschiedene Aspekte der Emotionsregulation), dann sollten bei Durchführung einer Faktorenanalyse die verschiedenen Items in vorhersagbarer Weise auf unterschiedlichen Faktoren laden.

Question 30

Q

Zurück zur Einzel-Item-Ebene. Was kannst du zu der Kriteriumsvalidität der Items sagen?

Answer

A

Wurde neben den Fragebogendaten zugleich ein Aussenkriterium erfasst, lässt sich nicht nur die Kriteriumsvalidität des gesamten Fragebogens bestimmen.

Es kann für jedes einzelne Item berechnet werden, wie hoch es mit dem Kriterium korreliert.

Question 31

Q

Was kannst du zur Kontentvalidität (Inhaltsvalidität) der Items sagen?

Answer

A

Anderson & Gerbing (1991) schlagen vor, dass man, nachdem ein Fragebogen konstruiert wurde, der unterschiedliche (Teil-)Konstrukte erfassen soll, einige Experten bittet, die Items denjenigen Konstrukten zuzuordnen, die diese nach ihrer eigenen (!) Meinung erfassen.

Hierzu legt man den Experten sowohl die Itemliste als auch eine Beschreibung der zu erfassenden Konstrukte vor. Die Experten müssen die Items nicht beantworten, sondern nur den Konstrukten zuordnen.
Das Ausmass der Übereinstimmung zwischen der bei der Fragebogenkonstruktion angestrebten Zuordnung der Items zu den Konstrukten und der durch Experten vorgenommenen Zuordnung wird als Mass für die Validität der Items gewertet.