Erweiterte Regressionsmodelle Flashcards
was ist eine Kovariate
Eine Kovariate ist eine unabhängige Variable, die nicht von direktem Interesse ist,
aber die Wirkung anderer unabhängiger Variablen beeinflusst
Dummy-Variable. Beschreibung
Eine Dummy-Variable ist eine unabhängige Variable mit den binären Ergebnissen
x∈ {0, 1}.
Analyse der Kovarianz (Ancova Design) Ziel?
Ziel eines Ancova-Designs ist es, den Unterschied zwischen den Gruppen in Bezug auf
eine kontinuierliche abhängige Variable nach (linearer) Bereinigung um
Gruppenunterschiede in Bezug auf eine kontinuierliche Kovariate zu bewerten
impliziert Korrelation Kausalität?
Nein
was bedeutet Korrelation impliziert nicht Kausalität?
Die Aussage „Korrelation impliziert keine Kausalität“ bedeutet, dass nur weil zwei Variablen miteinander korrelieren (also ein statistischer Zusammenhang zwischen ihnen besteht), dies nicht zwangsläufig bedeutet, dass die eine Variable die andere verursacht. Mit anderen Worten, eine beobachtete Beziehung zwischen zwei Variablen beweist nicht, dass die eine die Ursache der anderen ist.
wie bestimmt man den marginalen Effekt von X auf Y
MarginalerEffektvonXaufY= ∂X/∂Y
was macht ANCOVA (Analyse von Kovarianzen)
ANCOVA hilft uns, Gruppen fair zu vergleichen, indem der Einfluss einer Störvariablen (Kovariate) entfernt wird.
Annahmen der ANCOVA
-Linearität (Kovariate Z muss linear mit der abhängigen variable Y zusammenhängen)
-Die Varianz der Fehlerterme muss für alle Gruppen gleich sein
-Unabhängigkeit der beobachtungen (Datenpunkte müssen statistisch unabhängig sein)
-Parallelitätsannahme( Regressionslinien müssen für jede gruppe die gleiche Steigung haben
Interaktionseffekt bedeutung
Ein Interaktionseffekt ist der Koeffizient, der in einem linearen Regressionsmodell
mit dem Produkt aus zwei (oder mehr) unabhängigen Variablen verbunden ist. beta_3 * (x_i * z_i). Hier wäre beta_3 der Koeffizient
wann liegt eine nichtlineare transformation vor?
Eine lineare Regression setzt voraus, dass die abhängige Variable 𝑌 linear von den unabhängigen Variablen X abhängt.
Wenn dies nicht der Fall ist, können nichtlineare Transformationen helfen, die Beziehung zu linearisieren.(Bsp. log)
höherwertige Interaktionseffekte Vorteile/Nachteile
Vorteil: bessere Beschreibung der Daten
Nachteil: - es wird schwierig diese Effekte zu interpretieren
- bei mehr unabhängigen Variablen wird die Zahl der Interaktionseffekte sehr groß
Annahme des Paralellismus
Die Annahme des Parallelismus besagt, dass sich die Wirkung einer unabhängigen Variablen auf eine abhängige Variable nicht zwischen Gruppen unterscheidet – die Steigungen der Regressionslinien sind gleich. Wird diese Annahme verletzt, muss ein Interaktionseffekt berücksichtigt werden, sonst wird der Koeffizient des Interaktionseffektes = 0 gesetzt
was bedeutet (BLUE)
beste lineare unverzerrte Schätzer
BLUE bedeutet nicht nur, dass sie unverzerrt sind, sondern auch, dass die
Standardfehler der Schätzer so klein sind, wie sie für jeden unverzerrten linearen
Schätzer der Koeffizienten erwartet werden können, wodurch die statistische
Aussagekraft [Teststärke] des Hypothesentests maximiert wird.
Worauf beziehen sich Homoskedastizität und Heteroskedastizität?
auf die Streuung der Residuen (Fehlervariablen) in einer Regression.
Formel und Bedeutung Fehlervarianz
σ^2=E[(ε_i−E[ε_i])^2 ]=E[ε_i^2]
Die Fehlervarianz beschreibt, wie stark die Fehlerterme (Residuen) einer Regression um ihren Mittelwert streuen. Sie gibt an, wie stark die beobachteten Werte um die vorhergesagten Werte variieren.
Homoskedastizität bedeutung
Fehlervarianz konstant bleibt, unabhängig vom Wert der unabhängigen Variablen
Var(ε_i)=σ^2 für alle i
Das bedeutet, dass die Fehler unabhängig von den erklärenden Variablen sind und ihre Streuung konstant bleibt.
Implikation:Die OLS-Schätzungen bleiben effizient (bestmögliche Schätzer mit minimaler Varianz).
Die Varianzen der Regressionskoeffizienten sind korrekt berechnet, sodass Hypothesentests und Konfidenzintervalle zuverlässig sind.
Heteroskedastizität (Nicht-konstante Fehlervarianz) Bedeutung und formel
Die Fehlervarianz ändert sich in Abhängigkeit von den unabhängigen Variablen.
Mathematisch:
𝑉𝑎𝑟(𝜀_𝑖)≠𝜎^2
Die Fehlerterme haben keine konstante Varianz, sondern nehmen z. B. bei größeren
X-Werten zu oder ab.
Implikation: Die OLS-Schätzer bleiben unverzerrt, sind aber nicht effizient (es gibt bessere Schätzer mit geringerer Varianz).
Die Standardfehler der Regressionskoeffizienten sind falsch berechnet, wodurch Hypothesentests und Konfidenzintervalle nicht mehr zuverlässig sind.
Robuste Standardfehler Erklärung
Im Falle von Heteroskedastizität liefern die robusten Standardfehler Schätzungen
der Standardfehler der Koeffizienten βˆ, die konsistent sind ,d.h. die Verzerrung nimmt mit n →∞ ab
wann ist eine variable signifikant
Eine Variable in einem statistischen Modell (z. B. in einer Regression) ist signifikant, wenn die Nullhypothese, die besagt, dass der Effekt der Variablen auf die abhängige Variable null ist (also keine Wirkung existiert), mit einer ausreichend hohen Wahrscheinlichkeit abgelehnt werden kann.
Die Signifikanz wird häufig durch den p-Wert gemessen, der im Rahmen von Hypothesentests ermittelt wird
p-Wert < Alpha -> Variable ist signifikant
Exogenitätsannahme
Die Exogenitätsannahme besagt, dass E(U| x)= 0; die bedingte Expektum g der Residuen (bei x) gleich Null ist. Damit ist sichergestellt, dass die OLS
Die Schätzungen βˆ sind unverzerrt.
Endogenität
Endogenität ist ein Verstoß gegen die Exogenitätsannahme, der dazu führt, dass die
Schätzungen βˆ verzerrt (und nicht konsistent) sind.
endogene Variable
Eine unabhängige Variable, die mit dem Restterm der Regressionsgleichung
korreliert ist, wird als endogene Variable bezeichnet
was beschreibt Korrelation
Korrelation beschreibt den Zusammenhang oder die Beziehung zwischen zwei Variablen. Sie gibt an, wie stark und in welcher Richtung zwei Variablen miteinander verknüpft sind.
Exogene Variable
Eine unabhängige Variable, die nicht mit dem Residualterm der
Regressionsgleichung korreliert ist, wird als exogene Variable bezeichnet.
was ist eine instrumentalvariable
ist eine unabhängige variable, die mit einer endogenen Variable korreliert ist und nicht mit dem restterm korreliert ist, mit dem die endogene Variable korreliert ist