Hauptkomponenten- und Faktorenanalyse Flashcards
- Ziele und Verwendung von Hauptkomponenten- und Faktorenanalyse
Eine Vielzahl beobachteter Variablen die zugrunde liegende Struktur sog. Hauptkomponenten bzw. Faktoren zu ermitteln
Was wird in diesem Kontext als Faktor verstanden?
Auch als eine latente Variable bezeichnet ist ein psychologisches Konstrukt, dessen Ausprägung nicht direkt messbar ist. Stattdessen wird das Konstrukt durch ver. beobachtbare Variablen gemessen, z.B. durch die Fragen eines Fragebogens Wenn die Antworten auf diese Fragen durch zugrundeliegende Faktoren hervorgerufen werden, dann ist klar, dass solche Antworten über Personen hinweg miteinander korrelieren, sollten
Ausgangspunkt von PCA und FA & Korrelationsmatrix bei R bestimmen
- Die bivariate Korrelation mehrerer beobachteter Variablen und daher Korrelationsmatrizen. Wenn die Anzahl der korrelierten Variablen zunimmt, wir es immer schwerer die Cluster miteinander zu vergleichen und korrelierte Variablen zu ermitteln. Hier setzt die PCA und FA an.
- Korrelationsmatrix erstellen durch: R <- round(cor(daten), x)
mit round werden die auf eine bestimmte Nachkommastelle gerundet
Die Wichtigsten Verwendungen von FA und PCA
I. Verstehen: der Strukturen von Datensätzen (das Verstehen des Konstrukts „Intelligenz“ war auch mit Anlass der Entwicklung dieser Verfahren)
II. Entwicklung: eines geeigneten Fragebogens zur Erfassung mehrerer Dimensionen bzw. latenter Variablen
III. Reduktion: der Informationsmenge zur Weiterverarbeitung mit anderen Verfahren (z.B.: um Problemen der Multikollinearität im Rahmen einer multiplen Regression vorzubeugen, indem korrelierte Variablen zu einem Faktor zusammengefasst werden)
explorative vs. konfimatorische Faktorenanalyse
I. explorative Faktorenanalyse: Auffinden einer möglicherweise zugrunde liegenden Datenstruktur. Vorab werden keine Annahmen gemacht darüber, wieviele Faktoren der Datenstruktur zugrunde liegen
II. konfirmatorische Faktorenanalyse: theoriegeleitete Ideen über die Anzahl der zugrunde liegenden Faktoren, Testen konkreter Hypothesen über die Faktorenstruktur; Sind eigentlich einfache Sonderfälle sog. Strukturgleichungsmodelle.
Determinante, Haupt- und Nebendiagonale
I. Hauptdiagonale: die Diagonale einer Matrix die von links oben nach rechts unten geht
II. Nebendiagonale: Die Diagonale einer Matrix, die von rechts oben nach links unten geht
III. Determinante: Die Determinante einer Matrix ist eine einzige Zahl, in deren Berechnung sämtliche Werte einer Matrix eingehen. Man schreibt für die Determinante det A oder |A|. Sie wird berechnet, indem das Produkt der Nebendiagonalen von dem der Hauptdiagonalen subtrahiert wird:
|A| = ad – bc
Determinanten für (3 x 3)- bzw. (n x n)-Matrizen
(i). Für eine (3 x 3)-Matrix erfolgt die Berechnung mit der Regel des Sarrus
(ii). Im allgemeinen Fall von (n x n)-Matrizen kommt der Laplace´sche Entwicklungssatz zur Anwendung
Geometrische Interpretation von Determinanten
- Bei einer (2 x 2 )-Matrix: Fasst man die beiden Spalten als zwei Spaltenvektoren auf, so spannen diese ein Parallelogramm (bzw. bei orthogonalen Vektoren ein Rechteck) auf.
- Allgemeine Regel für den Flächeninhalte: Der Betrag der Determinante von A entspricht dem Flächeninhalt des durch die Spaltenvektoren aufgespannten Parallelogramms
Geometrische Interpretation von Determinanten: Eigenschaften zweier linear abhängiger Vektoren
würden geometrisch betrachtet aufeinander liegen – der Flächeninhalt und damit auch die Determinante sind jeweils 0. Da in diesem Fall die Matrix auch nicht invertierbar ist, kann man sagen:
|A| = 0 ⟺ A ist nicht invertierbar
Bestimmung der Determinante mit R:
A <- Matrix(c())
det(A)
Fiktive Scatterplots und (Varianz-)Kovarianz-Matrix
(vi). Fiktive Scatterplots: Um Punktewolken lassen sich Ellipsoide bilden, die umso schmaler sind, je stärker die beiden Variablen X und Y miteinander korreliert sind
(vii) (Varianz-)Kovarianz- Matrix: S ist nun eine sog. (Varianz-)Kovarianz-Matrix, also:
S = S²x Kov(X;Y)
Kov(X,Y) S²y
Dann ist √|S| proportional zum Rauminhalt des zugehörigen Ellipsoiden: Die Determinante ist eine Maßzahl für die Größe des Ellipsoiden
Definition: Eigenwertvektoren
–> beziehen sich immer auf eine quadratische Matrix!
1. Eigenwert: Sind alle λ, für die gilt: |A - λ * I| = 0.
- Eigenvektoren: Sei A eine quadratische (n x n)-Matrix, dann heißen alle Vektoren x, für die gilt, dass kein xi 0 ist, Eigenvektoren von A zum Eigenwert λ, wenn sie die Gleichung A * x = λ * x . A * x und λ * x sind dabei n-dimensionale Vektoren.
a) Normalerweise wird jeder Vektor bei Multiplikation mit A gestreckt und gedreht. Eigenvektoren sind genau diejenigen Vektoren, die bei Multiplikation mit A zwar um λ gestreckt, nicht aber gedreht werden.
Interpretation von Eigenwertvektoren und Eigenwerten
- Ist das Skalarprodukt der Eigenvektoren = 0, dann stehen beide Vektoren orthogonal zueinander
- Berechnung des Skalarprodukts in R: Nun kann man von den Eigenvektoren die in R mit [,1] und [,2] beschriftet sind, also die Spalten der Eigenvektormatrix sind. Das Skalarprodukt berechnen, indem man:
eigen.ergebnis$vektors[,1] %*% eigen.ergebnis$vectors[,2] - Proportionalität zur Hauptachse: Die zu den Eigenvektoren gehörenden Eigenwerte wiederum sind proportional zu den Längen der Hauptachsen. Die Stärke des Zusammenhangs zweier Variablen kann also durch das Verhältnis der Eigenwerte ausgedrückt werden:
a) Sind beide Variablen unkorreliert, sind beide Eigenvektoren gleich groß und das Verhältnis der Eigenwerte ergibt dann in etwas 1.
b) Bei sehr starken Korrelationen hingegen wird das Verhältnis aus größtem relativ zum kleinstem Eigenwert zunehmend größer. - Hauptachsen der Ellipsoiden: In die Ellipsen werden jeweils zwei orthogonal aufeinander stehende Geraden eingezeichnet, die die „Länge“ und „Höhe“ der Ellipsoiden darstellen, die sog. Hauptachsen
Grundidee der PCA
I. Grundidee der PCA: Eine PCA ist eine orthogonale Transformation der Daten. Daws bedeutet, dass die m-vielen Originalvariablen durch Linearkombinationen p-vieler neuer Variablen, die nicht miteinander korreliert sind, dargestellt werden. Diese Linearkombination p-vieler unkorrelierte Variablen sind die sog. Hauptkomponenten.
Konstruktion von Hauptkomponenten
- Die Hauptkomponenten werden so konstruiert, dass die erste Hauptkomponente bereits möglichst viel der Variation der Originaldaten erklären kann.
- Die zweite Hauptkomponente erklärt dann zwar weniger Variation, aber immerhin am „zweitmeisten“ usw.
- Die Hoffnung dabei ist, dass die ersten paar Hauptkomponenten bereits so viel < Variation erklären können, dass die Originalzusammenhänge zwar nicht zu 100%, aber doch zu einem Großteil wiedergegeben werden können. Damit wäre eine Reduktion der Dimension von m auf p < m gelungen.
Definition Faktorladung, Faktorwert und Faktormatrix
- Faktorladung: Die Korrelationen zwischen den Faktoren bzw. Hauptkomponenten und den Variablen.
a) Sie werden in einer Faktorladungsmatrix zusammengefasst
b) sie geben die Koordinaten der Variablen im Koordinatensystem an - Faktorladungsmatrix: Eine Matrix, üblicherweise bezeichnet als A, die die Ladungen enthält, wird Faktorladungsmatrix genannt
- Faktorenwerte: Jetzt geht es darum herauszufinden, welche Werte eine Person auf dem Faktor hat. Im Prinzip können die Faktoren als Linearkombination der Ausgangsvariablen mit den Ladungen als Koeffizienten dargestellt werden (Rechnung folgt)
Was ist die Matrix R?
- Matrix der bivariaten Korrelationen der Ausgangsvariablen; quasi die Grundlage jeder PCA bzw. FA (Wenngleich auch eine Kovarianzmatrix benutzt werden kann, wenn aber mitunter zu anderen Ergebnissen führt).
- Da bei einer Korrelationsmatrix auf der Diagonalen nur Eisen stehen, ist die „Gesamtvarianz“ (= Summe der Diagonalelemente) der Daten als gleich der Anzahl der Variablen
Was ist die Matrix Rrep?
Rrep: meint die reproduzierte Korrelationsmatrix: Eine FA oder PCA versucht die Zusammenhänge zwischen den Variablen möglichst gut mit weniger Hauptkomponenten bzw. Faktoren als Ausgangsvariablen wiederzugeben. Aus den Ladungen kann daher eine Matrix berechnet werden, die die von den Faktoren bzw. Hauptkomponenten vorhergesagten Zusammenhänge enthält Dies ist dann die reproduzierte Korrelationsmatrix.
Was sind die Matrizen A, L und V?
A: Faktorladungsmatrix
L: Eigenwertmatrix, eine Diagonalmatrix, in deren Diagonalen die Eigenwerte von R stehen
V: Eigenvektormatrix, in deren Spalten die Eigenvektoren zu den Eigenwerten stehen
Schritte einer PCA oder FA
I. Variablenauswahl und Berechnung/Evaluation der Korrelationsmatrix
II. Extraktion der Hauptkomponenten bzw. Faktoren und Bestimmung der Kommunalitäten
III. Bestimmung der Anzahl der Hauptkomponenten bzw. Faktoren
IV. Rotation und Interpretation der Hauptkomponenten bzw. Faktoren
V. ggf. Berechnung der Faktorwerte
Schritte einer PCA oder FA: 1. Variablenauswahl und Berechnung/Evaluation der Korrelationsmatrix: Welche Variablen sollten als Ausgangsvariablen genutzt werden?
Hier bestimmende Frage: Sind Daten für eine PCA/ FA geeignet?
I. Intervallskalenniveau: i.d.R., aber nicht zwingend wird von den Daten einer PCA oder FA Intervallskalenniveau erwartet. Dies liegt daran, dass als Grundlage die bivariaten Korrelationen herangezogen werden.
II. Als Ausgangsvariablen sollten verwendet werden:
(i). Variablen die inhaltlich zum Untersuchungsgegenstand passen und die
(ii). lineare Zusammenhänge zumindest zu einem Teil der anderen Variablen aufweisen
Schritte einer PCA oder FA: 1. Variablenauswahl und Berechnung/Evaluation der Korrelationsmatrix: Welche Tests stehen an?
- Bartlett-Test: Testet die Nullhypothese, dass alle Korrelationen eigentlich Null sind (d.h., dass R =I ist); dazu müssen die Variablen normalverteilt sein. Wird der Bartlett-Test signifikant gehen wir davon aus, dass R nicht einer Einheitsmatrix entspricht. Die Korrelationen sind also alle ungleich 0. P-Wert in der Ausgabe ablesen. –> Testet also ob Korrelationen nicht zu klein sind
- Determinante Größer als 0.00001? mit det(R) ausgeben lassen und gucken ob dem so ist. Wenn sie größer ist, dann können wir Multikollinarität erstmal ausschließen
- Ist die Stichprobe und das Korrelationsmuster für eine PCA/ FA geeignet?
Kaiser-Meyer-Olkin-(KMO)-Kriterium bzw. das Measure of Sampling Adequacy (MSA):
(a) sowohl für einzelne Variablen als auch insgesamt berechnet.
(b) variiert zwischen 0 und 1
(c) es sollte keine der Werte < 0.5 sein, je größer die Werte sind, desto besser
(d) von manchen Autor*innen verbale labels: 0.5 – 0.7 ist „mittelmäßig“; 0.7 – 0.8 ist „gut“ und 0.8 – 0.9 „sehr gut“ und höhere Werte sein „super“