8 - Explorative Faktorenanalyse Flashcards
Faktorenanalyse allgemein
Ziel: die gemeinsame Varianz von manifesten Variablen (bei Tests: Items) auf eine geringere Zahl von gemeinsamen latenten Variablen (= Faktoren) zurückzuführen
Der zugrundeliegende Faktor ist ursächlich für die Beantwortung des Items:
- Faktorladung 1 —> Item wird ausschließlich von dem Faktor beeinflusst, zu 100%
- Faktorladung 0 —> Item hat mit dem Faktor nichts zu tun
Faktoranalysen werden eingesetzt zu:
- Itemselektion (—> EFA, explorativ, hypothesengenerierend) - Reduktion der Items im Zuge der Itemanalyse
- Die Faktorladung ist ein zusätzlicher Kennwert (neben Trennschärfe, Itemschwierigkeit etc), den man bei der Itemselektion berücksichtigen sollte
Konstruktvalidierung (—> CFA, konfirmatorisch, hypothesenprüfend )
z.B: Sind die Items homogen, d.h. messen sie alle das gleiche, eine(!) zugrundeliegende Merkmal? Oder allgemein: passt das Ergebnismuster in der Faktorenanalyse zu meiner Annahme eines x-dimensionalen Konstrukts?
Wenn die angenommene Dimensionsstruktur faktoranalytisch stützt wird, spricht man von faktorieller Validität (notwendige Bedingung für Konstruktvalidität)
Explorative Faktorenanalyse
Keine Annahmen über Anzahl an Faktoren und Zusammenhänge zwischen den Items —> hypothesengenerierend
Man will herausfinden: 1. wieviele Faktoren, 2. Welche Faktoren beeinflussen welche Items
Beispiel: Die Big Five Personality Traits sind so (induktiv) entstanden
Früher wurde die explorative Faktorenanalyse auch eingesetzt, um Hypothesen zu prüfen. Denn die konfirmatorische Faktorenanalyse war wegen mangelnder Rechenleistung der Computer nicht möglich. Mittlerweile aber kein Hindernis mehr.
Faktor = “synthetische”, konstruierte Variable, die den miteinander korrelierenden manifesten Variablen zugrunde liegt
- Und zwar so konstruiert, dass sie bestmöglich die gemeinsame Varianz der manifesten Variablen erklärt
- Partialisiert man den Faktor heraus (d.h. man vergleicht nur noch solche manifesten Variablen mit jeweils derselben Faktorladung), dann sollte die Korrelation verschwinden
- Oft verschwindet die Korrelation aber nicht ganz, es bleibt weitere gemeinsame Varianz übrig —> man konstruiert einen weiteren synthetischen Faktor, der wiederum die noch verbliebene gemeinsame Varianz der manifesten Variablen am besten erklärt
Fundamentaltheorem der Faktorenanalyse:
Ein beobachteter (standardisierter) Wert einer Person in einer Variable (oder einem Item) kann in eine Linearkombination aus den mit den Faktorladungen gewichteten Faktorenwerten und einer Fehlerkomponente zerlegt werden
Wie werden die Faktoren konstruiert?
- Ziel: Faktorwerte und Faktorladungen so wählen, dass die durch die Gleichung vorhergesagten Werte möglichst gering von den beobachteten Werten abweichen (dass also die Fehlerkomponente möglichst klein wird)
- Problem: theoretisch sind unendlich viele Lösungen möglich —> weitere Vorgaben nötig
- Vorgabe #1: Die Faktoren sind wechselseitig unabhängig voneinander (Orthogonalität)
- Vorgabe #2: Die Faktoren klären sukzessiv maximale Varianz auf
- Es gibt verschiedene Verfahren:
- Hauptkomponentenanalyse (principal component analysis PCA): die gesamte Varianz wird betrachtet und aufzuklären versucht.
- Drei Komponenten: #1 Gemeinsame wahre Varianz + #2 Fehlervarianz + #3 Itemspezifische Varianz (kann durchaus systematisch sein, das Item teilt sie sich aber nicht mit anderen Items. Wird z.B. verursacht durch die Art der Formulierung, die ein bestimmtes Antwortmuster verursacht)
- Inhaltlich nur schwer zu interpretieren, denn: die Hauptkomponentenanalyse klärt zwar Varianz auf, aber wir wissen nicht welche genau
- Hauptachsenanalyse: nur gemeinsame wahre Varianz wird betrachtet und aufzuklären versucht.
- Das ist ja auch eigentlich die Varianz von Interesse —> Hauptachsenanalyse ist die empfohlene Methode der Wahl
- In der Praxis wird manchmal auch die Hauptkomponentenanalyse eingesetzt. Die Ergebnisse sind nicht unbedingt drastisch unterschiedlich, aber korrekter wäre die Durchführung der Hauptachsenanalyse, damit die Faktoren dann auch inhaltlich interpretierbar sind
Definitionen
Faktorwert
- Der Faktorwert einer Person kennzeichnet ihre Position auf dem Faktor (Die Koordinaten der Person auf der neu erstellten Faktorachse)
Faktorladung
- Die Faktorladung einer Variablen (eines Items) entspricht ihrer Korrelation mit dem Faktor k
Kommunalität
- Die Kommunalität einer Variablen (eines Items) gibt an, in welchem Ausmaß ihre Varianz durch die Faktoren aufgeklärt wird, wobei für z-standardisierte Variablen gilt:
0 < Komunualität < 1
Eigenwert
- Der Eigenwert eines Faktors gibt an, wie viel von der Gesamtvarianz aller Variablen (aller Items) durch diesen Faktor erfasst wird
- K ist die Anzahl der Variablen (Items), die einfließen. Da die Items z-standardisiert sind, ist die Varianz jedes einzelnen Items immer 1, die Gesamtvarianz also k*1 = k. D.h. der Eigenwert eines Faktors ist < k.
Welche Anzahl an Faktoren extrahiere ich? —> Hilfskriterien
- Wenn man absolut keine Vornahmen hat, ist es schwer die Anzahl an Faktoren festzulegen
- Problem: Wenn man ohne Einschränkungen drauf los legt, werden genauso viele Faktoren extrahiert, wie es Items gibt. Dann wird einfach jedes Item selbst ein Faktor. So wird zwar 100% der gemeinsamen Varianz durch die Faktoren aufgeklärt, ABER: steht gegen die Idee der Dimensionsreduktion —> Lösung: Die Mindestanzahl an Faktoren extrahieren, die die gemeinsame Varianz der Items ‘hinreichend gut’ aufklären
Kaiser-Guttman-Kriterium
- Interpretiere alle Faktoren, deren Eigenwert größer als 1 ist (die also mehr Varianz aufklären als ein einzelnes Item besitzt)
- ABER: schlecht! Nicht verwenden! Simulationsstudien zeigen, dass dabei in der Regel immer noch zu viele Faktoren extrahiert werden
- Weiteres Problem: Eigenwerte stellen nur Populationsschätzer dar. Man müsste eigentlich auch noch Konfidenzintervalle berücksichtigen
Scree-Test
- Berücksichtige all die Faktoren, die im Eignewertverlauf vor dem ‘Knick’ liegen
- Problem: Nicht immer gibt es einen eindeutigen Knick im Eigenwertverlauf —> zu großer subjektiver Spielraum —> nicht empfehlenswert.
Parallelanalyse (nach Horn)
- Vergleiche den Eigenwertverlauf der empirisch ermittelten Korrelationen mit einem simulierten Eigenwertverlauf von Zufallskorrelationen (man gibt vor dass die Items in der Population voneinander unabhängig sind und zieht dann aus der Population simulierte Stichproben —> durch den Stichprobenfehler gibt es trotzdem Zusammenhänge zwischen den Variablen)
- Gedanke: Diejenigen empirisch ermittelten Eigenwerte, die über dem zufällig ermittelten Eigenwertverlauf liegen, klären tatsächlich systematische (wahre) gemeinsame Varianz auf, nicht nur zufällige
- Nimm alle Faktoren, die vor dem Schnittpunkt liegen
- Simulationsstudien zeigen, dass die Parallelanalyse recht zuverlässig die richtige Anzahl an Faktoren trifft. Trotzdem bleibt ein Problem: Sind die Faktoren, die die Parallelanalyse vorschlägt, überhaupt inhaltlich interpretierbar? Ich muss mir dann anschauen, welche Items wie stark miteinander korrelieren und versuchen eine Theorie über das Konstrukt aufzustellen. Manchmal ist das nur schwer möglich.
Wie können die Ergebnisse der exploration Faktorenanalyse inhaltlich sinnvoll interpretiert werden?
- Problem: Die erste errechnete Faktorlösung ist oft nur schwer interpretierbar. Durch das Vorgehen der sukzessiven maximalen Varianzaufklärung werden die meisten Items sehr hoch auf dem ersten Faktor laden und dann auf jedem weiteren Faktor weniger.
- Lösung: Erneute Faktorenrotation: Man dreht die ermittelten Faktoren solange den Daten “entgegen” bis nur noch wenige Faktoren mit hoher Ladung übrig sind. Das führt zu einem inhaltlich besser interpretierbaren Ergebnis. Man strebt eine sog. ‘Einfachstruktur’ an, d.h. dass die Items jeweils bloß auf einem Faktor hoch laden (>0,5) und sonst auf keinem Faktor. Dann kann man die Items nämlich jeweils eindeutig einem Faktor zuordnen. Dieses Ziel muss aber nicht immer erreicht werden.
Es gibt verschiedene Rotationsverfahren:
- Orthogonale Rotation:
- Die Unabhängigkeit der Faktoren bleibt erhalten, wobei es für die Art der Rotation verschiedene Techniken gibt (z.B: das Varimax-Verfahren)
- Oblique Rotation (schief):
- Korrelationen zwischen den Faktoren werden zugelassen —> Winkel zwischen den Faktoren nicht immer exakt 90 Grad
- Damit enthalten die Faktoren auch redundante Informationen (sie überlappen sich und klären teilweise die gleiche Varianz auf), sind aber besser interpretierbar
Wenn die Faktoren tatsächlich unabhängig sind, dann führt auch eine oblique Rotation zu einer orthogonalen Lösung —> klare Empfehlung: immer oblique Rotation verwenden
Zusammenfassung: Entscheidungen bei der Faktorenanalyse
Welches Verfahren: Hauptkomponenten vs Hauptachsen
Welche Anzahl an Faktoren will ich extrahieren?
Welche Rotationstechnik verwende ich?