Lineare Regression Flashcards
Faktorenanalyse
• Ausgangspunkt: es existieren offenbar spezifische Strukturen in den Korrelationen von Variablen
• Vielzahl von Variablen kann auf eine überschaubare Anzahl an Einflussdimensionen reduziert werden
• Annahme: hinter mehreren miteinander korrelierenden Variablen stehen (unbeobachtete) Größen, die für die Korrelationsmuster verantwortlich sind
• Diese latenten Variablen heißen Faktoren und sind die zentrale Idee der Faktorenanalyse
=> Die Korrelation zweier Variablen entspricht dem Kosinus des Winkels zweier Vektoren (Je kleiner der Winkel, desto höher die Korrelation)
Kommunalitäten und Eigenwert
Kommunalitäten:
• Summe der quadrierten Faktorladungen einer Variable auf allen Faktoren und gibt den Teil der Gesamtvarianz einer Variablen an, der durch die Faktoren erklärt wird
• Der verbleibende Varianzanteil (1 - Kommunalität) geht im Rahmen der Faktorenanalyse verloren
• Variablen, die eine sehr geringe Kommunalität aufweisen (das heißt: durch die Faktoren nicht in ausreichendem Maße erklärt werden), können möglicherweise ausgeschlossen werden
Eigenwert:
• Summe der quadrierten Faktorladungen aller Variablen für einen Faktor (vor der Rotation, denn im Gegensatz zur Kommunalität verändert sich der Eigenwert durch die Rotation durchaus!)
Gütekriterien einer Skala
- Objektivität (Unabhängigkeit von zu Messendem)
- Validität (Repräsentieren die gemessenen Daten wie beabsichtigt die zu messende Größe?)
- Reliabilität (Cronbachs Alpha ist das Maß einer internen Konsistenz, Reproduzierbarkeit: Bei Wiederholung werden dieselben Messwerte erzielt)
Klausur: Nennen sie 3 grundsätzliche Buchstaben, die für ein Zusammenhangsmaß stehen!
- Chi-Quadrat (x^2)
- Phi
- Lambda
- r
Beziehung zweier metrischer Variablen: PRE Logik
PRE (Proportionale Fehlerreduktion):
- Schritt: Was ist ein Fehler?
- Abweichungsquadrate - Schritt: Referenzgröße
- beste Schätzung ohne Kenntnis der unabhängigen Variablen?
- arithmetisches Mittel - Schritt: Bestimmung der Geraden mit den geringsten Fehlern (Differenzialrechnung)
Beziehung zweier metrischer Variablen: Überblick
- Bestimmung der Regressionsgeraden
- Bestimmung des Anova-Blocks (Varianzzerlegung => Fehlerzerlegung)
- Modellfit
- Interpretationen der Regressionsgeraden (Voraussetzungen der Regression: Normalverteilung, Linearität, Homoskedastizität, Unabhängigkeit der Daten)
BLUE
Best Linear Unbiased Estimator:
- Erwartungswert der Fehler = 0
- Fehler sind unkorreliert
- Varianz der Fehler konstant (Homoskedastizität)
Drittvariablenkontrolle
Ausgangssituation:
• Es existiert ein statistischer Zusammenhang
zwischen zwei Variablen x und y.
• Es gibt eine Alternativerklärung für den
Zusammenhang (eine dritte Variable z).
Analyseproblem:
• Wie kann man den Zusammenhang zwischen x und y „frei“ von Einflüssen von z untersuchen?
Lösung:
• Man betrachtet den Zusammenhang zwischen x und y unter Konstanthaltung von z.