Faktoranalyse Flashcards
Was ist die Grundidee der Faktorenanalyse?
Korrelationen von manifesten Items erklärt durch latente Faktoren
Reduktion der Werte ohne Informationsverlust
vereinfachte Darstellung von wechselseitigen Zusammenhängen in beobachteten Variablen k durch m zugrunde liegenden Variablen (m<k)
Was sind wichtige Werte der Faktorenanalyse? Was ist ihre Bedeutung?
Ladung = Korrelation von Item i mit Faktor Lambda λ
Kommunalität=
Eigenwert= Anteil der Gesamtvarianz den Faktor j für alle Items erklärt
Kommunalität= Varianzanteil eines Items, der durch die extrahierten Faktoren erklärt werden kann
Kommunalität = 1 wenn so viele Faktoren extrahiert wie Items
Eigenwert = Eigenschaft der Komponenten
Kommunalität=Eigenschaft der Items
Was sind unterschiede zwischen Regressionsmethoden und Faktoranalyse?
- Regression sagt streng ein Outcome durch einen Prädiktor vor
- in anderen Modellen gleichberechtigtere Beziehung zwischen Variablen
Welche Anwendungen hat die Faktorenanalyse?
- Ergründung gemeinsamer latenter Struktur von Daten
- Überprüfung faktorieller Validität von Fragebögen und Skalen
- Informationsreduktion und -verdichtung (zB Kompositscore)
Was sind die mathematischen Grundlagen der Faktorenanalyse?
Interkorrelationsmatrix R der k Variablen -> 2 Matrizen (Eigenvektoren und Eigenwerte) multipliziert = ergeben Ladungsmatrix Λ
aus Ladungsmatrix werden Faktoren extrahiert
Eigenwerte werden über Singulärwertezerlegung (SVD) und iterativer Lösung des Eigenwertproblems numerisch bestimmt
R= Λ * Λ(transponiert)
Was ist die Ladungsmatrix?
Produkt 2er Matrizen (Eigenvektoren * Eigenwerte) aus Interkorrelationsmatrix R
kann R reproduzieren
Hauptdiagonalen =/= 1
sondern: wie stark Items auf spezifischen Faktor/Komponente laden
Was ist die Interkorrelationsmatrix?
=R
quadratische (k*k)
symmetrische
reelle Matrix, Darstellung in der Variablen aufgetragen werden und korreliert werden
Hauptdiagonale = 1 da Korrelation mit sich selbst = Summe der quadrierten Ladungen der jeweiligen Variable über alle Komponente
= standardisierte Varianzc
Was ist eine Faktorladung?
Korrelation der jeweiligen Variable mit der jeweiligen Komponente
Wertebereich [-1;1] mit 0=unkorreliert
Was ist eine Komponente in der PCA?
eine latente Variable die Variation der manifesten Variablen erklärt
Was ist die Varianz-Kovarianz-Matrix?
=S
unstandardisierte interkorrelationstabelle
in Hauptdiagnonale der Martix nicht =1 sondern Varianz
Welches Ziel hat die PCA?
Vereinfachung = weniger Komponenten extrahieren & schauen ob R gut reproduzieren kann
Bestimmung Anzahl latenter Komponenten
Zusammenfassung der latenten Variable in Komponentenscores für jede Person = gewichteter Score (linearkombination) der standardisierten Variablen unter Heranziehung der Komponentenladungen
λ1x1+λ2x2+…λk*xk=Komponente
Extraktion der Komponenten, so dass sie maximal Varianz erklären -> monoton fallende Eigenwerte
erklärte Varianzanteile sind unabhängig
Wie funktioniert die Faktorenextraktion in der PCA?
Interkorrelationsmatrix der Variablen
Umrechnen in Ladungsmatrix via Multiplikation
erste Komponente gezogen
Diagonalfit der Ladungsmatrix nimmt ab (Elemente <1) und kann mittels Offdiagonalfit Matrix dargestellt werden um Abweichungen zu kontrollieren
R - Λ*Λ (transponiert)
generell: Anpassung muss besser werden mit mehr Komponenten
in PCA prinzipiell so viele Komponenten gezogen wie Variablen
-> Abbruchkriterium
Welche Abbruchkriterien der Faktorenextraktion kennen wir?
beziehen sich explizit oder implizit auf Diagonalfit und verwenden Eigenwerte
- Screetest (Knick) uneindeutig
- Kaiser-Guttman Kriterium:
Eig>1 Problem: bezieht sich nur auf Populationsmatrizen, führt zu Überextraktion von Komponenten in Stichprobendaten da auch in unkorrelierten Variablen Eig>1 möglich, besonders bei klein N
-Parallelanalyse (empfohlen, most valid)
vergleicht Verlauf der beobachteten Eigenwerten mit Eigenwerten aus vielen Datensätzen von Zufallsdaten
Koomponenten behalten, deren i-ter Eigenwert größer ist als
- mittlerer i-ter Eigenwert
- 95. Perzentil des i-ten Eigenwerts
.. der Zufallsdaten
Was sind Eigenwerte? Wie können sie berechnet werden?
=Varianzanteil den der Faktor j von der Gesamtvarianz aller Items erklärt
Eig=Σjλ² ij
-summieren sich auf k = Summe der Variablen
- monoton fallend
Eig > 0 = R und S sind positiv definit
Eig≥ 0 = R und S sind positiv semidefinit
-> Indikator für den Diagonalfit = erklärte Gesamtvarianz
Erklärte Varianz= Eig/k * 100
Stichprobenschätzung
je kleiner N umso mehr streuen Korrelationskoeffizienten um 0 -> Stichprobenfehler, Eigenwerte trotz unkorreliertheit der Daten bei >1