Panelregression Flashcards
Was sind Paneldaten und welche Vorteile bieten sie ggü. Querschnittsdaten?
• Bei Paneldaten handelt es sich um die wiederholte Messung einer oder mehrerer Variabler bei einer oder mehreren Personen
• Paneldaten haben gegenüber Querschnittdaten mehrere Vorteile:
- erlauben die Analyse von individuellen Entwicklungen, da es neben der Varianz zwischen Personen Varianz innerhalb von Personen gibt
- enthalten Informationen zur zeitlichen Abfolge von Zuständen und Ereignissen
- erlauben die Kontrolle unbeobachteter individueller Heterogenität
- sind informativer (enthalten z.B. mehr Variabilität und Freiheitsgrade)
Welche 3 Effekte liegen vor?
- Zeit- oder Periodeneffekt: die Lebenszufriedenheit fällt über die Zeit hinweg tendenziell ab
- Selbstselektion: Personen, die heiraten, sind im Durchschnitt schon vor der Heirat zufriedener als die, die nicht heiraten
- kausaler (positiver) Effekt: Zufriedenheit erhöht sich im Anschluss an die Heirat zwischen den Wellen 2 und 3 deutlich (in der Kontrollgruppe ohne Heirat zeigt sich dieser Effekt nicht) => Effekt der uns interessiert!!
Was sind die zwei Quellen für Varianz?
- between: Varianz zwischen Personen (Querschnitt)
* within: Varianz innerhalb von Personen (Längsschnitt)
Wir benötigen extra Verfahren weil?
- OLS Regression nicht zulässig ist (BLUE verletzt)
- Der Kausaleffekt mit herkömmlichen Methoden nicht herauskristallisierbar ist
Es braucht geeignetere Verfahren, die…
• …eine einfachere Kontrolle von Selektionseffekten anbieten (alle Variablen kontrollieren zu wollen ist unrealistisch: im Normalfall werden die meisten Variablen schlicht unbeobachtet sein, gängige Praxis geht kaum über Standarddemographie hinaus)
• …vor allem der Tatsache Rechnung tragen, dass Personen mehrfach in den Datensatz eingehen
OLS-Regression mit robusten Standardfehlern
- löst das Problem mit Standardfehler
- robuste Standardfehler sind nur ein Teil der Lösung, denn die Regressionsgewichte können nach wie vor verzerrt sein
- Um dieses Problem zu lösen, gibt es geeignetere Verfahren, nämlich fixed-effects (FE) Modell und das random-effects (RE) Modell
Fixed-Effects Modell (FE)
- Das FE-Modell ist speziell dazu geeignet, den kausalen Effekt von zeitveränderlichen Kovariaten (z.B. von Ereignissen) auf eine metrische abhängige Variable zu identifizieren. Es basiert ausschließlich auf der within-Varianz
- Im Unterschied zur OLS Regression werden die abhängige Variable y und die unabhängige Variable x in einem FE-Modell also in Form ihrer Abweichungen vom personenspezifischen Mittelwert repräsentiert, also die Varianz innerhalb der Person (in unserem ersten Beispiel: der Einfluss einer Heirat auf die Zufriedenheit)
- Nicht die Variable, sondern Veränderung der unabhängigen Variable wird modelliert (=> Veränderung der abhängigen beeinflusst Veränderung der unabhängigen Variable => Selbstselektionseffekte sind raus!)
- Varianzen zwischen Personen (die between-Varianz in Folge der Selbstselektion) beeinflussen diese Schätzung nicht, der personenspezifische Fehler, aber auch zeitkonstante Merkmale (also alles, was über die Zeit hinweg keine Varianz besitzt!) wird durch die Subtraktion eliminiert
Kritik an Fixed-effects Modell
- FE-Modelle sind vergleichsweise konservativ (ausschließlich within- Varianz), haben daher in der Regel weniger „Power“ (d.h.: Effekte werden seltener signifikant)
- Zeitkonstante Variablen können im Modell nicht berücksichtigt werden (wenn also z.B. der Einfluss des Geschlechts als Suppressor oder Mediator interessant ist, gerät das FE-Modell an seine Grenzen)
- Also: wenn es gerade Selektionseffekte sind, die interessieren (z.B. in der Bildungsforschung), sind FE-Effekte nicht ideal
Random-effects Modell
- Der größte Nachteil des FE-Modells besteht darin, dass Effekte von zeitkonstanten Variablen nicht explizit geschätzt werden können
- Die zeitkonstanten, personenspezifischen Einflüsse (vi) werden im RE- Modell nicht (wie z.B. im LSDV-Modell über Dummy-Variablen) fix geschätzt
- Stattdessen wird angenommen, dass vi eine normalverteilte „latente“ Variable ist, deren Varianz geschätzt werden kann (deshalb random effects)
- Dadurch bleibt auch die between-Varianz für die Schätzung der Parameter erhalten (es wird nicht gemittelt, vi bleibt erhalten)
- Das RE-Modell nutzt somit beide Varianzquellen (within und between) zur Schätzung der Parameter
=> Problem: Modell funktioniert nur perfekt, wenn personenspezifische Heterogenität „irrelevant“ ist, die zeitkonstanten Personenmerkmale also nicht mit den UV korrelieren
=> RE-Modelle nur dann unverzerrt, wenn es keine Selbstselektion gib
=> Unrealistisch!
FE vs RE Modell
•die Schätzung bleibt auch dann robust, wenn das Panel unbalanciert ist (d.h. nicht alle Personen werden in jeder Welle beobachtet) oder wenn es systematische Panelmortalität gibt (Ausfälle, die mit zeitkonstanten Personeneigenschaften (vi) zusammenhängen)
•Das FE-Modell kann auch bei dichotomen oder ordinalen AV bzw. im Rahmen von Ereignisdatenanalysen und Strukturgleichungsmodellen angewendet werden (einen Überblick gibt Allison 2001)
• Dennoch kann es (je nach Fragestellung… und sei es nur aus Neugier) erforderlich sein, den Einfluss zeitkonstanter Variablen zu überprüfen!
• In diesem Fall müssen wir entscheiden können, ob ein RE-Modell unverzerrte Ergebnisse liefert!
=> Hausman-Test: Wird der ausgegebene chi-Quadrat-Test signifikant, kann NICHT davon ausgegangen werden, dass FE- und RE-Modell die gleichen Ergebnisse liefern… dann muss das RE-Modell abgelehnt werden!!!