Hauptkomponentenanalyse Flashcards
Wozu dient die Hauptkomponentenanalyse
principal component analysis = PCA
zur Datenreduktion
Was ist das ziel der Hauptkomponentenanalyse
die Zusammenhänge zwischen den Variablen durch wenige Hauptkomponenten darzustellen
Was testet eine Hauptkomponentenanalyse
keine Hypothesen! Stattdessen ist es ein hypothesengenerierendes Verfahren.
Die Hauptkomponentenanalyse besteht aus drei Schritten:
- Extraktion
- Reduktion
- Rotation
Vor Beginn der Hauptkomponentenanalyse werden
die beobachteten Variablen Yi (i = 1,…,p) standardisiert und dann auch als Zi bezeichnet. Dadurch hat jede einzelne Variable Zi eine Varianz von 1.
Hauptkomponentenanalyse – 1. Schritt: Extraktion
Die gesamte Varianz der beobachteten Variablen Zi (i = 1,…,p) wird zunächst durch ebenso viele Hauptkomponenten Hj (j = 1,…,q; q=p) erklärt
Jede Variable ist also eine Linearkombination der Hauptkomponenten.
Prinzipiell werden die Werte so berechnet, dass die erste Hauptkomponente möglichst viel Varianz auf den beobachteten Variablen aufklärt und die anderen Komponenten erklären dann sukzessive weniger
Ladung 𝜆𝑖𝑗 entspricht
der Korrelation der Variablen Zi mit der Hauptkomponente Hj.
Die Hauptkomponenten sind untereinander aufgrund ihrer Orthogonalität
nicht korreliert.
Kommunalität
beschreibt, wie viel Varianz einer Variable 𝑍𝑖 durch alle k Hauptkomponenten gemeinsam aufgeklärt wird.
Die Kommunalität ist eine Eigenschaft
der Variable
Eigenwert 𝛿 ist eine Eigenschaft
der Hauptkomponente j
Er beschreibt den Anteil der Gesamtvarianz aller Variablen, den die Hauptkomponente aufklärt.
Je größer der Eigenwert,
umso mehr Varianz klärt diese Hauptkomponente auf. Bei der Extraktion klärt die erste Hauptkomponente immer am meisten auf & die anderen dann sukzessive immer weniger
Der Eigenwert ist eine Eigenschaft
der Hauptkomponenten.
Varianzaufklärung
beschreibt etwas ähnliches wie der Eigenwert. Hier wird die aufgeklärte Varianz der Hauptkomponente in Relation gesetzt zur Gesamtvarianz aller Variablen. Dadurch ergeben die Hauptkomponenten zusammen zunächst 100%
Kaiser Guttmann Kriterium
alle Hauptkomponenten beibehalten, deren Eigenwert größer als 1 ist
Die Idee ist, dass diese Hauptkomponenten mehr Varianz erklären als eine einzelne Variable hat.
Scree-Test
alle Hauptkomponenten oberhalb des Knicks im
Eigenwertsdiagramm beibehalten
Bei größeren PCAs werden meistens weniger Hauptkomponenten durch den Scree Test beibehalten als bei Kaiser Guttmann.
Allerdings gibt es auch Fälle ohne eindeutigen Knick
Parallelanalyse
werden zufällige Daten mit der gleichen Stichprobengröße & Anzahl an Variablen erzeugt. Die Variablen sind in der Grundgesamtheit unkorreliert. Über die zufälligen Daten wird ebenfalls eine PCA gerechnet und der Eigenwertverlauf wird verglichen. Nur die Hauptkomponenten mit Eigenwerten, die höher sind als bei den zufälligen Daten werden beibehalten.
Bei der Anwendung dieser Methode werden normalerweise viele (50-5000) Datensätze erzeugt und gemittelt
Auswirkung der Reduktion
Reduktion wird die Zahl der Hauptkomponenten auf k reduziert. Dadurch wird nicht mehr die komplette Varianz jeder einzelnen Variablen durch die Hauptkomponenten erklärt. Die Kommunalitäten sinken also auf weniger als 1 & die addierte Varianzaufklärung der k Hauptkomponenten ergibt weniger als 100%.
Warum ist die 1 Lösung der PCA inhaltlich oft nicht gut zu interpretieren ?
da viele Variablen auf mehreren Hauptkomponenten hoch laden & es deshalb schwierig ist, zu entscheiden, was die jeweiligen Hauptkomponenten inhaltlich bedeuten.
Um die Interpretierbarkeit zu erhöhen,
werden die Hauptkomponenten in einem dritten Arbeitsschritt rotiert. Dabei sollen die Ladungen auf einzelnen Hauptkomponenten maximiert werde
Es gibt zwei Arten von Rotationen:
Orthogonale Rotation
Oblique Rotation
Orthogonale Rotation:
Die neuen Hauptkomponenten sind ebenfalls unkorreliert.
Oblique Rotation:
Die neuen Hauptomponenten dürfen nach der Rotation korrelieren.
Ein häufig verwendetes Verfahren zur orthogonalen Rotation ist die
Varimaxrotation, bei der die Varianz der quadrierten Ladungen auf jeder Hauptkomponente maximiert werden soll.
Voraussetzungen der Hauptkomponentenanalyse
Die Zusammenhänge zwischen den Variablen sollten linear sein
Es sollten nicht zu viele Ausreißer vorliegen
Die Variablen sollten metrisches Skalenniveau haben
Die Stichprobengröße sollte mindestens 3*Variablenanzahl betragen & größer als 50 sein.
Die Kommunalität für jede Variable kann leicht berechnet werden, indem
jede Ladung quadriert &dann addiert wird.
Der Eigenwert jeder Hauptkomponente kann leicht berechnet werden, indem
jede Ladung quadriert & dann addiert wird.