Faktorenanalyse Flashcards
Was ist die Grundidee der Faktorenanalyse?
- Korrelationen zwischen (manifesten) Items werden dadurch erklärt, dass ihnen ein gemeinsames latentes Merkmal (=Faktor) zugrunde liegt
- paarweise Korrelationen trotz Faktor <1 -> neben latenten Merkmal auch andere Faktoren (wie Messfehler) berücksichtigt
2 Arten: konfirmatorische und explorative Faktorenanalyse
- Zusammenhang mehrer Items mit einem (hypothetischen) latenten Konstrukt (=Faktor)
Wie lautet die Formel für das Generalfaktormodell der Faktorenanalyse?
Zᵢ=λᵢ,₁F₁+ δᵢΔᵢ -> ein Faktor
Zᵢ… standardisiertes Ergebnis des Item i
λᵢ,₁… Ladung (=Bedeutung) von Faktor 1 bei Item i
F1… Faktor 1
δᵢ… Ladung (=Bedeutung) aller anderen Einflüsse bei Item 1
Δᵢ… alle anderen Einflüsse (=itemspezifischer Faktor)
= bei jedem Item anders
-> Ähnlich dem Modell der einfachen Regression
Was besagt das multiple Faktorenmodell von Thurnstone?
Zᵢ=λᵢ,₁* F₁+ λᵢ,₂F₂ + … λᵢ,ₘFₘ + δᵢ*Δᵢ
Zᵢ=Σλᵢ,ₕFₕ+δᵢΔᵢ
Was ist die Annahme unkorrelierter Faktoren?
verschiedene Faktoren korrelieren nicht miteinander
Was sind die drei wichtigsten Kennwerte der Faktorenanalyse?
λᵢ,ₐ = die Ladungen der Faktoren
hᵢ² = die Kommunalität des Items
Eig(Fᵢ) der Eigenwert des Faktors
Was besagen die Ladungen in der Faktorenanalyse?
λᵢ,ₐ ist die Korrelation von Item i mit Faktor a
λᵢ,ₐ=ρ(Xᵢ,Fₐ) -> können positiv und negativ sein
λᵢ,ₐ kann als (Konstrukt)Validität des Items i für Faktor a interpretiert werden
Was ist das Bestimmtheitsmaß?
Das Bestimmtheitsmaß ist die quadrierte Ladung
λᵢ,ₐ²
besagt wie stark ein Faktor an einem Item beteiligt ist und wie gut die Ausprägung des Faktors durch das Item vorhersagbar ist/wie reliabel es Faktor misst
Was besagt die Kommunalität eines Items?
Varianzanteil eines Items der durch alle k extrahierten Faktoren erklärt werden kann
hᵢ²=Σλᵢ,ₐ²
unter Annahme dass die Faktoren stabil sind ist die Kommunalität die untere Schranke der Reliabilität des Items
hᵢ²≤rel(Xᵢ)
Kommunalität liegt zwischen 0 und 1
0-> Item kann garnicht durch Faktor erklärt werden
1 -> Item kann vollständig durch Faktor erklärt werden
Was ist der Eigenwert eines Faktors und wofür ist der gut?
wie viel Varianz der jeweilige Faktor von der Gesamtvarianz aller Items erklärt
Eig(Fₐ) = Λ = Σλᵢ,ₐ²
wichtig um Stellenwert eines Faktors zu interpretieren
kann als Maß dafür verstanden werden wie gut der Test die Faktoren misst bzw wie viel Infos die Items über den Faktor liefern
- Kenngröße für die Anzahl zugrunde liegender Faktoren
Eigenwert Λₐ eines Faktors a = Anteil der Varianz den der a-te Faktor an alle Items i hinweg
Wie kann man den Prozentsatz der Gesamtvarianz aller Items berechnen der durch einen bestimmten Faktor erklärt wird?
j = Eig(Fₐ)/k100 = Σλᵢ,ₐ²/k100
k… Anzahl an Items im Test
Wie kann man den Prozentsatz berechnen, den ein bestimmter Faktor von einer durch mehrere Faktoren erklärbare Varianz ausmacht?
j = Eig(Fₐ)/ΣEig(Fᵢ)*100
Eigenwert durch Summe aller Eigenwerte mal hundert
-> je größer desto größer sein Anteil an der “Erklärung” der Korrelation zwischen der Items
Was ist die Parameterschätzung?
- Bestimmung der (unbekannten) Ladungen
- Festlegung der Faktorenzahl
Grundidee: zunächst wird der Faktor mit dem größten Eigenwert “extrahiert”
-> Summe der quadrierten verbleibenden Korrelationen wird minimiert
-> ΣₐΣₑ[Xₐ, Xₑ]-
Was ist die Parameterschätzung?
- Bestimmung der (unbekannten) Ladungen
- Festlegung der Faktorenzahl
- Lösungsweg aufwendig
Grundidee: zunächst wird der Faktor mit dem größten Eigenwert “extrahiert”
-> Summe der quadrierten verbleibenden Korrelationen wird minimiert
-> ΣₐΣₑ[r(Xₐ, Xₑ)-^λₐ,₁^λₑ,₁]=Minimum
dann zweiter Faktor nach selber Grundidee, allerdings mit den Restkorrelationen
r(Xₐ, Xₑ)Rest=r(Xₐ, Xₑ)-^λₐ,₁^λₑ,₁
r = Restkorrelation von Item a und b nach Extraktion von Faktor 1
unterschiedliche Schätzmethoden
Welche Extraktionsverfahren kennen wir und wozu werden sie verwendet?
- extraktion der Faktoren aus Daten
2 häufigste Verfahren: - Hauptachsenanalyse (principal axis)
- Kauptkomponentenanalyse (principal components)
Welche Extraktionsverfahren kennen wir und wozu werden sie verwendet?
- extraktion der Faktoren aus Daten
2 häufigste Verfahren: - Hauptachsenanalyse (principal axis)
-> auf einen Faktor ladende Items zusammenfassen - Kauptkomponentenanalyse (principal components)
-> Ursachen für hohe Korrelationen zwischen Items
finden
Was passiert bei der Hauptkomponentenanalyse? Principal Component Analysis (PCA)
- Annahme: Varianz wird vollständig durch gemeinsamen Faktor erklärt
- alle Kommunalitäten (auch die Korrelationen eines Items mit sich selbst) = 1
–> es werden so viele Faktoren extrahiert wie es Items gibt - weder statistische Annahmen getroffen noch Faktoren extrahiert
verwendet Kompositscores “Hauptkomponenten”: soll interindividuelle Unterschiede optimal abbilden
im Prinzip können für p Itemvariablen stets p Hauptkomponenten gebildet werden aber Bedeutung der Hauptkomponenten nimmt sukzessive ab
wesentliches: Eigenwerte, Eigenwertvektoren
-> darf NICHT wie EFA behandelt werden, zB darf keine Faktorenrotation durchgeführt werden
Was passiert bei der Hauptachsenanalyse?
Principal Factor Analysis (PFA)
Annahme: Varianz=Kommunalität+Einzelrestvarianz
- alle Kommunalitäten (auch die Korrelationen eines Items mit sich selbst) < 1
- Ziel: nur durch gemeinsame Faktoren erklärbare Varianz beschreiben
- Kommunalitätenproblem: Kommunalitäten zu Beginn der Datenanalyse nicht bekannt
–> Faktoren werden zuerst mittels Hauptkomponentenanalyse geschätzt und iterativ verbessert = Kommunalitäteniteration
Welche Kriterien gibt es bei der Bestimmung der Faktorenzahl?
- Faktorenzahl wird a priori festgelegt
- alle Restkorrelationen sind nahe 0 (z.B.:<.2)
- Kaiser Kriterium: Eigenwert des zuletzt extrahierten
Faktors < 1 -> (Infos über Faktor < Infos über
einzelne Items) - Elbow Kriterium: Verlauf des Eigenwertediagramms
(Screeplot) - Parallelanalyse
keine generellen Vorschriften, Grad der Subjektivität ist relativ hoch
Was ist das Elbow Kriterium?
Eigenwertetabelle
jene Stelle wird gesucht, an der Verlauf abflacht
-> Faktoren vor dem Knick werden berücksichtigt
Was passiert bei der Parallelanalyse in der Faktorenanalyse?
- es werden 100 Datensätze von Zufallszahlen erzeugt
- Anzahl Items & Stichprobenumfang enspricht empirisch gewonnenem Datensatz
-> Faktorenanalyse -> Eigenwerte pro Faktor gemittelt
–> relevante, nichttriviale Faktoren sind jene, deren Eigenwerte über jeden der gemittelten Parallelanalyse liegen
Wie können Faktoren inhaltlich interpretiert werden?
- Ladungsmatrix bietet Grundlage
- in einem Faktor hohe Items (λ>0.7) und in allen anderen Faktoren niedrig(λ<0.3) ladende Items = Marker-Items
-> auf Funktion wären Marker Items nahe an den Koordinatenachsen
Was ist die Faktorenrotation und warum wird sie durchgeführt?
- hohe Ladungen bei Erstlösung der Faktoren eher selten, -> Faktorladungsmatrix meist nicht eindeutig bestimmt wenn mehr als ein Faktor extrahiert wird
- Faktoren werden zur besseren interpretierbarkeit rotiert
-Ziel: Einfachstruktur Ideal: jedes Item hat nur in einem Faktor hohe und in anderem Faktor niedrige Ladungen
Was verändert sich bei der Faktorenrotation und was bleibt gleich?
es ändern sich:
- Ladungen
- Eigenwerte
- mögl. Interpretation der Faktoren
unverändert bleiben:
- Kommunalitäten
- Anteil der durch die Faktoren erklärbare Varianz
Wann spricht man von einer orthogonalen Rotation?
wenn der rechte Winkel zwischen den Faktorenachsen beibehalten wird
= Faktoren bleiben auch nach der Rotation unkorreliert
Wann spricht man von einer schiefwinkeligen (oblique) Rotation?
wenn die Faktorenachsen nicht im rechten Winkel aufeinander stehen
-> Gibt Forderung nach unabhängigen Faktoren auf
Wann spricht man von einer Varimax Rotation?
Die Faktoren werden so rotiert, dass die Varianz der Ladungen innerhalb eines Faktors maximal wird
Ziel: pro Faktor sowohl hohe als auch niedrige Ladungen zu haben, um Faktoren leichter benennen zu können
Was sind Faktorwerte (auch Skalenwerte)?
Kennwerte für die Ausprägung der Personen in den zu Grunde liegenden Faktoren zu ermitteln
Angabe welche Werte die Testperson in jedem extrahierten und rotierten Faktor η hat
Problem: undeterminiertheit der Faktoren
Wie wird ein ungewichteter Faktorwert gebildet?
pro Person: aufsummieren oder mitteln der Punkte jener Items, die auf Faktor laden -> unterschiedliche Konstruktvalidität wird nicht berücksichtigt
bei Items die in mehreren Faktoren hohe Ladungen haben
sind Faktorladungen gleich groß sind Summenscores geeignet aber wenn Faktorladungen ungleich kann es zu Verzerrungen im Summenscore kommen
entweder höchste Ladung wählen oder nicht berücksichtigen
Umpolung von negativen Ladungen
Wie lautet die Formel für das Umformen von Faktorladungen?
X*ₐ,ᵢ= [min(Xᵢ) + (max(Xᵢ)] - Xₐ,ᵢ
Wie werden gewichtete Faktorwerte gebildet?
- Items werden je nach Ladung eines Items in einem Faktor gewichtet
- umpolen ist nicht nötig
- Resultat: pro Faktor standardisierte Faktorwerte
- Berechnung in Statistik Programmen
Wofür wird die explorative Faktorenanalyse (EFA) verwendet?
wenn noch keine Hypothesen über Anzahl der Faktoren und der Zuordnung der Items zu Faktoren existieren
struktursuchend
hypothesengenerierend
Ziele:
1. Wie viele Faktoren für die ökonomische Darstellung der Daten nötig?
2. sind Items unidimensional?
3. Weist ein hoher/niedriger Itemwert auf einen entsprechend hohen/niedrigen Itemwert hin?
4. inhaltliche Interpretation der Faktoren
5. Welche Items genügen Gütekriterien besonders gut?
Erklärungsmodell für Korrelationen der p y1, y2, …, yp Itemvariablen durch k latente Faktoren η1, η2, … ηk
Wofür wird die konfirmatorische Faktorenanalyse (CFA bzw. KFA) verwendet?
- zuvor theoretisch festgelegte Faktorenstrukturen werden anhand empirischer Daten auf ihre Gültigkeit hin überprüft
- Faktorenzahl und Zuordnung de Items zu den Faktoren bekannt
- struktursuchend, hypothesenprüfend
- Latent Trait Model bzw Strukturgleichungsmodelle (SEM) –> prüfen wie gut ein oder mehrere theoretisch formulierte Modelle die empirischen Daten beschreiben
Zusammenhang zwischen latenten und Indikatorvariablen
-> Verwendung von Signifikanztests als auch Indices zur Überprüfung der Modellanpassung
Welche Merkmale hat die EFA?
keine Vorannahmen über Faktorenzahl
keine Ideen zu Zugehörigkeit der Items zu Faktoren
Ziel: Einfachstruktur
Was ist mit Einfachstruktur gemeint?
Ziel möglichst geringe Anzahl von Faktoren zu extrahieren wobei Items möglichst eindeutig zu genau einem Faktor zugeordnet werden können
-> sparsame erklärung
-> eindeutige Interpretation
Welche Ablaufschritte hat eine EFA?
- Aufstellung Faktorenmodells:
Festlegung zu berücksichtigende Faktoren (gemeinsame Faktoren, laden auf mehr als ein item) und nicht zu berücksichtigende Faktoren (Residuum) - Ermittlung Anzahl notwendiger Faktoren
- Rotation der Faktoren
- Beurteilung der Modellgüte und des Ladungsmusters
Was sind gemeinsame Faktoren?
- laden auf 2+ Items
- latente Merkmalsausprägungen
- zunächst unbekannte Ausprägungen -> erst im Vergleich können Rückschlüsse auf die Einflussgewichte und Zusammenhänge der Items und Faktoren gemacht werden
Was ist eine Faktorladung?
λ des iten Items auf den jten Faktor
Maß für die Größe des Zusammenhangs zwischen jeweiligem Item und jeweiligem Faktor
Wertebereich -1 bis 1
Interpretation: Korrelationskoeffizient zwischen Item und Faktor, so lange Faktoren unkorreliert
Fehlerterm -> Anteil der Itemvarianz die nicht durch gemeinsamen Faktor erklärt wird
Was ist das Fundamentaltheorem der Faktorenanalyse?
Antwortmuster können durch eine endliche Anzahl von gemeinsamen Faktoren und einen verbliebenen, unerklärbaren Anteil erklärt werden
Welche Methoden der Faktorenextraktion kennen wir?
Hauptachsenanalyse
Maximum-Likelihood-Faktorenanalyse
Welche Abbruchkriterien der Faktorenextraktion kennen wir?
Kaiser Guttman Kriterium = Eigenwert>1
Vorteil: einfach
Nachteil: zu viele Faktoren
Elbow Kriterium, Scree Test
= Kurve im Eigenwertdiagram
Vorteil: gut wenn eindeutiger Knick
Nachteil: nicht gut wenn nicht eindeutig
Parallelanalyse: vgl Zufallsdaten
1. Datengenerierung entsprechend Populationsmodell mit Annahme dass ale Variablen unkorreliert
2. Auswertung -> Fehler auf Grund von Stichprobenschwankungen werden minimiert
3. Visualisierung der Eigenwertverläufe (-> Scree Plot)
Vorteil: zuverlässige Ergebnisse
Nachteil: aufwendig
Was ist der Likelihood-Quotienten-Test oder auch Modelldifferenztest?
- 2 Modelle mit unterschiedlichen Faktoren werden verglichen
- reagiert sensibel auf Verletzung der Normalverteilung
Was bedeutet die Einfachstruktur im Allgemeinen?
ein Item soll möglichst nur eine Primärladung und nur wenige bis keine Sekundärladungen aufweisen
-> Ziel der Faktorenrotation, eindeutige Zuordnung von Items zu Faktoren
Wie läuft die Faktoreninterpretation in der EFA?
- post-hoc
- vorsichtig
- Zuschreibung Label zu Faktor erfolgt anhand Faktorladungen (absolute Größe und positiv/negativ berücksichtigen -> niedrige Ladungen tragen nicht zur inhaltlichen Diskriminierung im Sinne des Faktors bei)
-> Iteminhalt repräsentativ bei Namensgebung
-> Bedeutung der Faktoren kann sich je nach Faktorenrotationsmethdode ändern - hohe Korrelation der Faktoren untereinander: schwer argumentierbar dass es unterschiedliche Konstrukte sind
Wie funktioniert die Itemauswahl der EFA?
- Items ausgewählt mit besonders hohen Faktorladungen, typischer cut off wert für gute Items = 0.3 oder 0.4
Achtung: Breite der inhaltlichen Validität beachten - ausgewählte Items sollen möglichst keine Sekundärladungen haben
- Items sollten nicht zu stark reduziert werden, mindestens 3-5 Items pro Konstrukt
Welche Ablaufschritte hat eine CFA?
- Spezifikation Messmodell -> Indikatorvariable und Faktoren
Hypothesenbildung,
Was bedeutet Messfehler im Rahmen der CFA?
der überbleibende Restkorrelation nach Auspartialisierung des Einflusses der latenten Variablen auf die Korrelation zweier Indikatorvariablen -> lokale stochastische Unabhängigkeit; true score und Messfehler sind unkorreliert
= Fehlerkovarianz: systematische Zusammenhänge zwischen 2+ Indikatorvariablen
Was ist das Interzept α?
-additive Konstante
-Messungen mit verschiedenen Messinstrumenten
unterschiedliche Metrik oder Kalibrierung der Messinstrumente
-auch zu beobachten wenn Items unterschiedliche Schwierigkeit (bzw Leichtigkeit) haben -> Leichtigkeitsparameter
-> kann als Interzept modellbasiert geschätzt werden
Was ist die Faktorladung λ?
-multiplikative Konstante
-wie kann Änderung der latenten Variblen η übersetzt wird in eine Änderung der True Score Variablen τ
-hängt numerisch zusätzlich von Skalierung der Messinstrumente ab
Was ist die Maximum-Likelihood-Methode?
Voraussetzungen:
- korrekt spezifiziertes Modell: multivariat normalverteilte Daten, lineare Beziehungen zwischen kontinuierlichen und manifesten Variablen
- maximiert Likelihood dass bei Gültigkeit des Modells in der Population die empirische Kovarianzmatrix resultiert
- Likelihood maximal wenn Differenz zwischen empirischer und modellimplizierter Kovarianzmatrix möglichst gering sind -> Diskrepanzfunktion minimal
Wie werden geschachtelte Modelle geprüft?
unterscheidet sich der Modellfit eines restriktiveren Modell mit weniger frei geschätzten Parametern und daher mehr Freiheitsgraden signifikant von einem weniger restriktiven Modell?
- Chi2 Differenztest
prüft Nullhypothese: kein Unterschied
H0: ΣA=ΣB
-> Differenz der Chi2 Werte und der Freiheitsgrade gebildet
Differenz kann auf Signifikanz geprüft werden
Parsimonität: ein nicht signifikanter Differenzwert (p> .01) spricht für das strengere Modell
Was ist Messinvarianztestung?
Messinstrument misst in allen Gruppen bzw über die Zeit hinweg das selbe Merkmal in gleicher weise
Mittelwertestruktur muss beachtet werden