Faktoranalyse Flashcards
Vorbereitung für den Präsenztest Faktoranalyse (Statistik II)
Was ist ein Index und wofür braucht man ihn?
x
Wie erstellt man einen gewichteten Index?
- Voraussetzungen prüfen: corr var1 var2 var3; fre var1; fre var2; fre var3
- Variablen präfigieren: cap drop präfix*; gen präfixvarname = oldvarname
- Missing values umcodieren: recode präfix* (missing =.)
- Index erstellen: gen index = faktorpräfixvar1 + faktorpräfixvar2 + faktor*präfixvar3
Wie z-standardisiert man eine Variable bzw. eine schon präfigierte Variablenliste?
cap drop zvar
egen zvar = std(oldvar)
cap drop zpräfix*
egen zpräfixvar1 = std(präfixvar1)
egen zpräfixvar2 = std(präfixvar2)…
Für welche Probleme und Variablen ist die Faktoranalyse geeignet?
- Datenreduktion -> senkt Multikollinearität und reduziert Messfehler
- hochkorrelierte Daten werden zu Messinstrument zusammengefasst
- Gewichtung kann empirisch erfolgen (trotzdem theoretisch fundiert!)
- Ziel: latente Konstrukte operationalisieren
Was ist ein Faktor?
- Formelzeichen: Fi
- gemeinsames latentes Konstrukt, welches Varianz auf mehreren Indikatoren beeinflusst
- kann also Antwortverhalten bei mehreren Fragen erklären
Was ist eine Faktorladung?
- Formelzeichen bii (erst Item, dann Faktor)
- gibt an, mit welchem Gewicht der Faktor auf jeweiligen Indikator wirkt
Was ist die Kommunalität?
- Formelzeichen: h2 (h Quadrat)
- Anteil der Varianz eines Indikators, der durch Faktoren erklärt wird
- Formel: Faktorladungen quadrieren und aufsummieren
- oder: h2 = 1 - U
- Wertebereich 0 bis 1, bei 1 wird die Varianz des Indikators vollständig durch den Faktor erklärt
Was ist die Uniqueness?
- Formelzeichen Ui
- andere Aspekte neben dem Faktor, die Indikator beeinflussen (Restvarianz)
- Alternativerklärungen und/ oder Messfehler
- gilt nur für einen Indikator
- ist unabhängig vom Faktor
- verschiedene unique Komponenten sind voneinander unabhängig
- Formel: U = 1 - h2
Wie berechnet man die Korrelation aus den Faktorladungen im orthogonalen Fall?
- Achtung: man kann immer nur die Korrelation zwischen zwei Variablen berechnen! (ansonsten nur durchschnittliche Korrelation)
- r (var1, var2) = (b11 x b21) + (b12 x b22)
- beim Vergleich der modellimplizierten Korrelation mit der empirisch beobachteten Korrelation müssten kleine Unterschiede zu sehen sein => das liegt daran, dass bei modellimplizierter Korrelation die uniquen Komponenten komplett außer Acht gelassen wurden
Wie berechnet man Kommunalität und Uniqueness?
- h = b11Quadrat + b12Quadrat
- U = 1 - h
Was ist die PCA und wofür verwendet man sie
- Hauptkomponentenanalyse
- um zu entscheiden, wie viele Faktoren extrahiert werden sollen
Welche sind die drei Kriterien, um zu entscheiden, wie viele Faktoren extrahiert werden?
- Kaiser-Gutmann-Kriterium: die Komponenten extrahieren, die Eigenvalue von über 1 haben, damit eine Datenreduktion stattfindet
- Screeplot
pca varlist
scree
scree, yline(1)
die Faktoren extrahieren, die vor dem Knick kommen - cumulative proportion-Kriterium:
die Faktoren extrahieren, bei denen cumulative proportion 0,6 überschreitet (ab 0,5 akzeptabel in Umfrageforschung; eig 0,9)
Was ist der Kaiser-Meyer-Olkin-Koeffizient und wie kann er interpretiert werden?
pca varlist
estat kmo
- gibt an, wie stark die Indikatoren mit den jeweils anderen Indikatoren korrelieren
- sollte min. 0,8 sein
- Indikatoren ausschließen, deren KMO unter 0,8 ist
- unter 0,5 inakzeptabel, weil dann zu starke partiale Korrelation
Welche faktoranalytischen Verfahren gibt es und wie unterscheiden sie sich?
PCF: unterschätzt Uniqueness, überschätzt Kommunalität
fac varlist, pca
PF: Schätzung der Kommunalität über R2, überschätzt Uniqueness, unterschätzt Kommunalität
fac varlist, pf
IPF: Schätzung der Kommunalität wird immer wieder wiederholt –> weder Unter- noch Überschätzung
fac varlist, ipf fac(#)
Welches Ziel verfolgt die Rotation
- Faktorladungen so verändern, dass Einfachstruktur hergestellt wird
- leichtere Interpretierbarkeit der Faktoren ermöglichen
- Kommunalität und Uniqueness der einzelnen Variablen bleiben gleich, nur Faktorladungen werden verändert
Was ist eine Einfachstruktur?
- Idealtyp: jede Variable lädt auf einem Faktor 1 und auf allen anderen Faktoren 0
- Regelfall: jede Variable lädt auf einem Faktor hoch (über 0.5) und auf den anderen niedrig (unter 0.2)
- Markervariable ist Anhaltspunkt für Interpretation des Faktors
Was ist der Unterschied zwischen obliquer und orthogonaler Rotation?
- bei obliquer Rotation wird Korrelation zwischen Faktoren zugelassen (Promax [rot, pro], Direct Quartimin [rot, oblique quartimin])
- bei orthogonaler Rotation wird keine Korrelation zwischen Faktoren zugelassen (Varimax [rot, horst], Quartimax)
- Kriterium für Obliqueheit:
rot, pro
estat common
wenn Korrelation über 0.15 ist –> oblique Rotation beibehalten
Welche Variablen sind nach der Rotation als problematisch anzusehen?
- Kreuzladungen mit DIfferenz < 0.2
- Uniqueness > 0.8 falls Variablen ausgeschlossen wurden
Welche Maßnahmen zur Herstellung einer Einfachstruktur gibt es?
- Variablen ausschließen
- Variablen hinzunehmen (eher nicht)
- geeignete Rotationstechnik wählen
- Faktor weniger extrahieren
Worauf muss man bei der inhaltlichen Interpretation der Faktoren achten?
- Markervariablen
- Polung der Variablen
- Polung der Faktoren
- negatives Vorzeichen evtl.
Wie berechnet man die Anteile der Gesamtvarianz oder gemeinsamen Varianz, die durch die Faktoren erklärt werden?
- im obliquen Fall:
Gesamtvarianz: (variance von fac 1/ proportion von fac1) / Variablenanzahl
Gemeinsame Varianz: Proportion der Faktoren ablesen - im orthogonalen Fall:
Gesamtvarianz:
Gemeinsame Varianz: Proportion der Faktoren ablesen
Was ist der Unterschied zwischen Pattern- und Structure-Matrix im obliquen Fall? (Im orthogonalen Fall gibt es keinen Unterschied)
- Structure Matrix gibt Korrelationen zwischen den Faktoren und Variablen an
[estat structure] - Pattern Matrix gibt die Faktorladungen an
[Rotationsoutput]
????
Was ist das Ziel des Scorings?
- durch empirische Gewichtung wird neues Messinstrument erstellt
- Faktorwerte für eine Untersuchungseinheit vorhersagen können
Was ist der Unterschied zwischen dem Regressionsansatz und dem Barlettansatz? (Scoring)
- Bartlett gewichtet Kommunalitäten stärker und diskriminiert Uniqueness