Faktoranalyse Flashcards

1
Q

Was ist die Grundidee der Faktorenanalyse?

A

Korrelationen von manifesten Items erklärt durch latente Faktoren
Reduktion der Werte ohne Informationsverlust
vereinfachte Darstellung von wechselseitigen Zusammenhängen in beobachteten Variablen k durch m zugrunde liegenden Variablen (m<k)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was sind wichtige Werte der Faktorenanalyse? Was ist ihre Bedeutung?

A

Ladung = Korrelation von Item i mit Faktor Lambda λ
Kommunalität=
Eigenwert= Anteil der Gesamtvarianz den Faktor j für alle Items erklärt
Kommunalität= Varianzanteil eines Items, der durch die extrahierten Faktoren erklärt werden kann
Kommunalität = 1 wenn so viele Faktoren extrahiert wie Items

Eigenwert = Eigenschaft der Komponenten
Kommunalität=Eigenschaft der Items

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was sind unterschiede zwischen Regressionsmethoden und Faktoranalyse?

A
  • Regression sagt streng ein Outcome durch einen Prädiktor vor
  • in anderen Modellen gleichberechtigtere Beziehung zwischen Variablen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Welche Anwendungen hat die Faktorenanalyse?

A
  1. Ergründung gemeinsamer latenter Struktur von Daten
  2. Überprüfung faktorieller Validität von Fragebögen und Skalen
  3. Informationsreduktion und -verdichtung (zB Kompositscore)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was sind die mathematischen Grundlagen der Faktorenanalyse?

A

Interkorrelationsmatrix R der k Variablen -> 2 Matrizen (Eigenvektoren und Eigenwerte) multipliziert = ergeben Ladungsmatrix Λ
aus Ladungsmatrix werden Faktoren extrahiert
Eigenwerte werden über Singulärwertezerlegung (SVD) und iterativer Lösung des Eigenwertproblems numerisch bestimmt
R= Λ * Λ(transponiert)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was ist die Ladungsmatrix?

A

Produkt 2er Matrizen (Eigenvektoren * Eigenwerte) aus Interkorrelationsmatrix R
kann R reproduzieren
Hauptdiagonalen =/= 1
sondern: wie stark Items auf spezifischen Faktor/Komponente laden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist die Interkorrelationsmatrix?

A

=R
quadratische (k*k)
symmetrische
reelle Matrix, Darstellung in der Variablen aufgetragen werden und korreliert werden
Hauptdiagonale = 1 da Korrelation mit sich selbst = Summe der quadrierten Ladungen der jeweiligen Variable über alle Komponente
= standardisierte Varianzc

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist eine Faktorladung?

A

Korrelation der jeweiligen Variable mit der jeweiligen Komponente
Wertebereich [-1;1] mit 0=unkorreliert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist eine Komponente in der PCA?

A

eine latente Variable die Variation der manifesten Variablen erklärt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was ist die Varianz-Kovarianz-Matrix?

A

=S
unstandardisierte interkorrelationstabelle
in Hauptdiagnonale der Martix nicht =1 sondern Varianz

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Welches Ziel hat die PCA?

A

Vereinfachung = weniger Komponenten extrahieren & schauen ob R gut reproduzieren kann

Bestimmung Anzahl latenter Komponenten

Zusammenfassung der latenten Variable in Komponentenscores für jede Person = gewichteter Score (linearkombination) der standardisierten Variablen unter Heranziehung der Komponentenladungen
λ1x1+λ2x2+λk*xk=Komponente

Extraktion der Komponenten, so dass sie maximal Varianz erklären -> monoton fallende Eigenwerte
erklärte Varianzanteile sind unabhängig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wie funktioniert die Faktorenextraktion in der PCA?

A

Interkorrelationsmatrix der Variablen
Umrechnen in Ladungsmatrix via Multiplikation
erste Komponente gezogen
Diagonalfit der Ladungsmatrix nimmt ab (Elemente <1) und kann mittels Offdiagonalfit Matrix dargestellt werden um Abweichungen zu kontrollieren
R - Λ*Λ (transponiert)
generell: Anpassung muss besser werden mit mehr Komponenten
in PCA prinzipiell so viele Komponenten gezogen wie Variablen
-> Abbruchkriterium

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Welche Abbruchkriterien der Faktorenextraktion kennen wir?

A

beziehen sich explizit oder implizit auf Diagonalfit und verwenden Eigenwerte
- Screetest (Knick) uneindeutig
- Kaiser-Guttman Kriterium:
Eig>1 Problem: bezieht sich nur auf Populationsmatrizen, führt zu Überextraktion von Komponenten in Stichprobendaten da auch in unkorrelierten Variablen Eig>1 möglich, besonders bei klein N

-Parallelanalyse (empfohlen, most valid)
vergleicht Verlauf der beobachteten Eigenwerten mit Eigenwerten aus vielen Datensätzen von Zufallsdaten
Koomponenten behalten, deren i-ter Eigenwert größer ist als
- mittlerer i-ter Eigenwert
- 95. Perzentil des i-ten Eigenwerts
.. der Zufallsdaten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was sind Eigenwerte? Wie können sie berechnet werden?

A

=Varianzanteil den der Faktor j von der Gesamtvarianz aller Items erklärt
Eig=Σjλ² ij
-summieren sich auf k = Summe der Variablen
- monoton fallend
Eig > 0 = R und S sind positiv definit
Eig≥ 0 = R und S sind positiv semidefinit
-> Indikator für den Diagonalfit = erklärte Gesamtvarianz

Erklärte Varianz= Eig/k * 100

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Stichprobenschätzung

A

je kleiner N umso mehr streuen Korrelationskoeffizienten um 0 -> Stichprobenfehler, Eigenwerte trotz unkorreliertheit der Daten bei >1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wie können Komponenten interpretiert werden?

A

erklärt Anteil an Varianz
geometrische Interpretation als Achsen in einem Koordinationssystem
initiale Lösung der PCA ist orthogonal
- rechtwinkelig
- eindeutig hinsichtlich Eigenwerte
- uneindeutig hinsichtlich mancher Transformationen

nach Rotation:
bei unabhängigen Komponenten orthogonal, bei korrelierten Komponenten oblique/schiefwinkelige Komponenten

17
Q

Wie funktioniert Faktorenrotation? Welche Methoden kennen wir? Welche wurde uns empfohlen?

A

Es werden Markervariablen gesucht
Rotation der Achsen eines Koordinatensystems, welche Koordinaten zu Datenpunkten modelliert
initiale Lösung ist rechtwinkelig

Methoden ua:
- Varimax: orthogonal, möglichst eindeutige Zuordnung von Variablen zu Komponenten “Einfachstruktur” = reine Rotation
- Quartimax: orthogonal, maximiert Erklärungswert der Komponenten ggü Variablen
- Oblimin: oblique, freie Schätzung der Korrelation zwischen Komponenten -> Vorteil ggü Varimax, wenn Komponenten unkorreliert sind wird dies auch wirklich erkannt

18
Q

Welche Konsequenzen hat die Faktorenrotation?

A

orthogonale Rotation:
Ladungen verändern sich
Größe der Eigenwerte zueinander ändern sich
Summe der erklärten Varianz ist gleich

oblique Rotation:
Komponenten nicht mehr unabhängig
Ladungen verändern sich
Größe der Eigenwerte zueinander ändern sich
Summe der erklärten Varianz ändert sich (= korrelierte Komponenten überlappen)

19
Q

Orthogonale oder oblique Rotation?

A

in der Psychologie oft oblique besseren Datenfit da reale Daten meist korreliert sind
realistischer als orthogonale Komponenten

20
Q

Wann wird 100% der Varianz für eine Variable mittels PCA erklärt?

A

Wenn alle k Komponenten extrahiert werden
Kommunalität = 1
Ziel: weniger aber ausreichende Varianzerklärung

21
Q

Was sind Kommunalitäten?

A

Anteil erklärter Varianz je Variable
Summe der quadrierten Ladungen aller Komponenten
h²=Σiλ²ij

1-h²= Uniquenessj
= Anteil nicht erklärter Varianz

sollte möglichst hoch sein
niedrige Kommunalität =/= niedrige Ladungen
Exklusion von Items mit niedriger Kommunalität verbessert Messeigenschaften & Ökonomie

22
Q

Wie kann die PCA interpretiert werden?

A

theoretisch Sigifikanztest
häufig aber stattdessen effektstärkenbasierte Interpretation
Cutoff > .3 für relevante λ
-> dann h2=0.1 -> mindestens 10% Varianz der Variable erklärt
-> mittlerer Effekt nach Cohen
nur Heuristik, es gibt auch andere Cutoffs

23
Q

Welche Unterschiede gibt es zwischen PCA und EFA?

A

verwandt aber nicht ident

PCA sucht Komponenten die ein Maximum der beobachteten Varianz erklären

EFA beruht auf Messmodell, das gemeinsame Faktoren identifiziert und a priori von Messfehlern (Itemspezifische Varianz) differenziert

EFA unterscheidet a priori in gemeinsame und spezifische Varianz
nicht erklärte Varianzanteile werden in PCA konzeptuell nicht als Messfehler angesehen

EFA kompatibler mit der Interpretation dass latente Faktoren beobachtete Variablen erklären

in PCA kann immer Lösung gefunden werden und immer bis zu k Komponenten extrahiert werde, bei EFA nicht

liefern häufig ähnliche Ergebnisse
Ladungen & Ladungsmuster häufig ähnlich
Komponenten- & Faktorscores oft hochkorreliert
Korrelationen von Scores mit Drittvariablen sind häufig gleich

PCA robuster:
- keine Einschränkungen bzgl Faktorenzahl
- keine Haywood cases

PCA gut wenn:
- Faktorenzahl unbestimmt, explorativ

idR erst PCA um Faktorenzahl zu bestimmen, dann EFA Ladungsmatrix berechnen und PAF

24
Q

Was ist der Ziel der EFA?

A

Messmodell
versucht die den Variablen gemeinsame Varianz, bereinigt um Messfehler durch Faktoren zu erklären
-> beobachteter Wert erklärt als Linearkombination latenter Faktoren plus Messfehler
Vereinfachen + Zusammenfassen

25
Q

Wie funktioniert die Hauptachsenanalyse?

A

Elemente der Hauptdiagonale von R werden vorab mit Kommunalitäten geschätzt mittels PCA
->Interkorrelationsmatrix R wobei Hauptdiagonalenelemente um Uniqueness Matrix abgezogen wird
-> Hauptdiagonale Werte < 1
-> davon Ladungsmatrix bestimmt

-> iterative Bestimmung der Kommunalitäten, finale Kommunalitäten erst mit Erreichen der Konvergenz (Kriterium) des Algorithmus bestimmt

-> stukturell gleich wie PCA aber in Hauptdiagonale verminderte Matrix verwendet

26
Q

Wie kann die Lösung einer EFA aussehen?

A

anders als PCA gibt es nicht immer eine Lösung
- Lösung nur dann hinreichend identifiziert wenn:
- m ≤ (k-1)/2
- m < k

genaue Anzahl an Faktoren kann abhängig von Methode etwas variieren
manchmal konvergiert EFA garnicht oder produziert Heywood-Lösung (erklärte Varianz scheinbar > 1 -> ungültige Lösung)

sonst gleich wie PCA:
- rotieren
- zu niedrig ladende Items exkludieren
- Faktorscores bilden (komplexer als PCA)

27
Q

Welche Methoden gibt es um Faktorscores in der EFA zu bilden?

A

Regressionsmethode: maximiert Validität der Scores, bildet Korrelationsstruktur der Faktoren nicht getreu ab

Bartlett-Werte: hohe Validität aber keine getreue Abbildung der Korrelationssstruktur, liefert unbiased Schätzer

Anderson-Rubin-Methode: geringere Validität, nicht unbiased aber getreue Abbildung der Korrelationsstruktur in den Faktorscores (empfohlen!)

Alternativen zu Faktorscores:
- ungewichteter Score: Summe oder Mittelwert der Werte in den Variablen mit oder ohne Cutoff für relevante Ladungen
- gewichtete Scores: gewichtete (=Ladung der Faktorlösung) Summe oder Mittelwert der Werte in einzelnen Variablen
mit standardisierten Variablen
(empfohlen)

28
Q

Welche Voraussetzungen haben PCA und EFA?

A

metrische & multivariat-verteilte Variablen
Methoden haben gewisse Robustheit, werden aber durch alles beeinflusst, insbesondere:
schiefverteilte Variablen (Decken- & Bodeneffekte)
≤5 Abstufungen (boundedness)

Multikollinearität: nicht zu hoch aber auch nicht zu niedrig korreliert

29
Q

Welche Konsequenzen hat die Verletzung von Voraussetzungen von PCA und EFA?

A

Extraktion artifizieller Faktoren
- zieht scheinbar relevante Faktoren
- Items nach Schiefe oder Schwierigkeit geclustered
- obwohl keine Inhaltliche Bedeutung der Faktoren
- auch parallelanalyse hilft nicht

zu hohe Multikollinearität -> Heywood Fälle

besonders bei Itemanalyse gegeben

30
Q

Wie kann mit Voraussetzungsverletzungen der Verteilungsannahmen PCA und EFA umgegangen werden?

A

polychorische bzw. tetrachorische Korrelationen
= latente Korrelation normalverteilter Kontinua
unter Annahme normalverteilter Daten-> passt metrisches Messniveau an
Nachteil: kann zu Haywood Lösungen führen

31
Q

Welche Empfehlung gibt es für Itemanalysen?

A

tetrachorische/polychorische Korrelationen verwenden
Vorsicht
esp. bei Items mit ≤ 5 Stufen
schiefe Verteilungen (Boden u Deckeneffekte)

32
Q

Wie kann die benötigte Stichprobengröße für eine PCA/EFA berechnet werden?

A

schwer a priori bestimmbar
abhängig von:
- Anzahl der Variablen
- Anzahl der Faktoren
- Größe der Kommunalitäten
- Größe der Ladungen

generell: Stabilität von Lösungen nehmen mit steigendem N zu
Heywood Fälle sind bei großem N seltener

heuristik: mindestens 300
mindestens dreistellig

33
Q

Wie kann in der Faktorenanalyse auf ausreichend korrelierte Variable geprüft werden?

A

KMO Test
prüft Struktur der Matrix R
Deskriptiv = [0;1]

Wert nahe 0: Variablen korrelieren zu gering -> für FA ungeeignet

Werte nahe 1: Variablen korreliere einheitlich und kompakt -> für FA geeignet

gebräuchlicher Cutoff >.5

Bartlett Test -> eher nicht verwenden
testet gesamte Matrix R auf signifikanz -> eher unreliabel da abhängig von N

34
Q

Was sind indefinite Korrelationsmatrizen? Was ist deren Konsequenz?

A

Matrizen mit positiven & negativen Eigenwerten
kann bei tetrachorische/polychorische Korrelationsmatrizen auftreten

Faktorisierung produziert ungültige Lösung = Heywood Fall
Ladungen > 1
Uniqueness wäre negativ

treten je häufiger auf:
- je extremer Itemschwierigkeit
- je größer die Ladungen
- je kleiner N

-> mathematische Glättung von Matrizen kann Problem indefiniter Matrizen lösen (=entfernt negative Eigenwerte aus der Matrix)

35
Q

Wie unterscheiden sich EFA/PCA und CFA?

A

es werden nicht alle Ladungen frei geschätzt sondern im Messmodell werden Nullladungen festgelegt
CFA testet ob das mit Daten vereinbar ist
in CFA wird per default von korrelierten Faktoren ausgegangen

36
Q

Wofür werden Strukturmodelle noch verwendet?

A

Analyse von Measurement Invariance (MI)
prüft ob Messmodell in unterschiedlichen Gruppen gleichermaßen gültig ist
testet auch auf Gleichheit von Messmodellen über verschiedene Zeitpunkte in derselben Gruppe (longitudinal MI)
-> wesentliche Voraussetzung ist das Mittelwertsvergleiche & Vergleich von Korrelationen zwischen Gruppen fair und unbiased ist
Voraussetzungen:
- configural invariance: gleiches Ladungsmuster
-metric invariance: gleiche unstandardisierte Ladungen
- scalar invariance: gleiche Intercepts (für Mittelwertsvergleiche nötig!! nur dann fair und unbiased)

Multigruppenmodell allgemein
sind Zusammenhänge/Strukturmodelle in unterschiedlichen Gruppen gleich?
-> Alternative zu Moderatoranalysen