PCA/FA Flashcards
Kommunalität
*Definition
*Berechnung
*Interpretation
- Varianzanteil einer manifesten Variable, der durch die Faktorlösung erklärt werden kann
*Berechnung: Faktorladung quadrieren, bei mehreren Komponenten Ergebnisse aufaddieren. Endergebnis ist Prozentwert
*z.B.: Die Varianz der Variable Bier wird zu 69% von den ersten drei Komponenten abgebildet. Die Varianz der Variable Rotwein wird nur zu 61% von den ersten drei Komponenten und damit schlechter als Bier abgebildet.
Screeplot
* Definition
*Bewertung
*Schwierigkeit
- Grafisches Verfahren, in dem die Eigenwerte in einem Diagramm in absteigender Rangfolge geordnet dargestellt werden.
- Inhaltlich relevant sind die Faktoren, die über dem Knick liegen, d. h. die bildlich gesprochen als „harter Fels“ gelten und sich vom „Geröll“ abheben
*Problem: Subjektives Urteil, besonders bei mehreren Knicken. In solchen Fällen eher den höheren Knick wählen, also die geringere Faktorenzahl
KMO-Kriterium
„Kaiser-Meyer-Olkin Measure of Sampling Adequacy“
- Zeigt an, in welchem Umfang die manifesten Variablen miteinander korrelieren
- Interpretation:
- Über .90: „marvellous“
- Über .80: „meritorious“
- Über .70: „middling“
- Über .60: „mediocre“
- Über .50: „miserable“ -> ab hier kann eine PCA/FA durchgeführt werden
- Unter .50: „unacceptable“ (bzw. „merde“)
Faktorladung
*Def
*Wertebereich
*interpretation
- Stärke und Richtung der Korrelation zwischen Faktor und Variable
- [-1; 1]
- Ladungen größer ±0,5 gelten als bedeutsam
- Eine hohe Ladung bedeutet, dass eine Variable eine hohe Erklärungskraft für den betreffenden Faktor besitzt (und umgekehrt)
Faktorladung, R² und Kommunalität
Aufaddieren der quadrierten Faktorladungen (also die quadrierten Korrelationskoeffizienten der Variablen mit den Komponenten = R2) = Kommunalität
- Da die Komponenten untereinander nicht korreliert sind, überschneiden sich die R2 nicht. Dadurch lassen sie sich addieren, ohne die Kommunalität adjustieren zu müssen.
Eigenwert
*Definition
Gibt an, wie viel Varianz der manifesten Variablen eine Komponente erklärt
Eigenwert
* Interpretation
- In Variableneinheiten: Ein Faktor mit dem Eigenwert 1,5 erklärt so viel Varianz wie 1,5 manifeste Variablen
- In Prozent: Teilt man den Eigenwert des Faktors durch die Anzahl aller Faktoren, erhält man den Anteil der Gesamtvarianz, den der Faktor erklärt. z.B. 2:5 = 0,4 = 40%
Bartlett’s-Test
- testet, ob sich die Korrelationsmatrix signifikant von einer Matrix unterscheidet, in der die Variablen vollkommen unkorreliert sind (Identitätsmatrix: 1 in den Diagonalen, sonst überall 0).
- ist so gut wie immer signifikant (in unserem Beispiel Chi-Quadrat=2363, df=36, p<0.000), da Chi-Quadrat allein durch die Stichprobengröße sehr groß wird
- Funktion: Nur als absolutes Ausschlusskriterium sinnvoll: wenn NICHT signifikant, auf keinen Fall Faktorenanalyse durchführen
Eigenwertkriterium (auch Kaiser-Kriterium)
- Bestimmung der Anzahl zu behaltener Hauptkomponenten/Faktoren anhand der Eigenwerte.
- Eine Komponente wird beibehalten, wenn sie einen Eigenwert größer als 1 hat, d.h. mehr Varianz erklärt als eine der manifesten Variablen
Warum wird die Faktorlösung rotiert? Was ändert sich dadurch?
- Rotation kann die inhaltliche Interpretation erleichtern.
- Bildlich gesprochen, werden die Koordinatenachsen dabei so gedreht, dass sich die Beziehungen zwischen Faktor und Variablen verändern, –> die Faktorladungen verändern sich
FA und PCA
*Unterschiede
FA(ck) Varianz der manifesten V. kann nicht vollständig durch die FAs erklärt werden
FA (La)tente Faktoren bestimmen Struktur der manifesten Variablen
FA (St)rukturen entdecken, Ursachen von Datenmustern finden
PCA - Varianz kann vollständig erklärt werden, unerklärte Varianz ? Fehlerterm
PCA - Manifeste V. bestimmen Struktur der manifesten V.
PCA - Möglichst umfassende Varianzaufklärung
Was sind passive Variablen in der PCA? Wie werden sie in die Analyse aufgenommen?
- Variablen, die nachträglich mit den extrahierten Komponenten korreliert werden.
- Tragen nicht zur Konstruktion des Raumes bzw. zur Ausrichtung der Komponenten bei.
- Ihre Ladung ist folglich immer = 0.
- Die Korrelation der passiven Variablen mit den Komponenten kann interpretiert werden, um den Zusammenhang zwischen Hauptkomponenten und metrischen Variablen zu untersuchen