Theorie Flashcards
Schiefe
Maß für die Asymmetrie einer Verteilung
=0 symmetrisch
>0 rechts schief
<0 links schief
Wölbung
Maß für die WSK-Masse in den tails
=3 Normalverteilung
>3 heavy tails
Kovarianz
Maß des linearen Zusammenhangs zwischen X und Z
=0 unabhängig aber nicht viceversa
Cov(X,Z)>0 positiver linearen Zusammenhang
Bedingte Verteilung
Verteilung von Y gegeben die Realisation von einer anderen Zufallsvariable X
Korrelation
Corr(X,Z)=Cov(X,Z)/sqrt(Var(X)Var(Z))
Gesetz der großen Zahlen
CLT
Ȳ ist ein konstanter Schätzer für mu
Konsistenz
Ȳ konvergiert in WSK gegen den wahren Erwartungswert mu
Zentraler Grenzwertsatz (CLT)
Ȳ kann gut durch die Normalverteilung approximiert werden
p-Wert
WSK ein Schätzergebnis zu bekommen, das mindestens genauso stark gegen die Null Hypothese spricht wie das tatsächliche berechnete
Signifikanzniveau
2 Fehlerarten
Vorher festgelegte WSK der fälschlichen Ablehnung der Nullhypothese
-Fehler 1. Art
Fehler 2. Art → WSK Hypothese nicht abzulehnen obwohl sie falsch ist
95%-Konfidenzintervall
→ beinhaltet den wahren Wert von mu in 95% von wiederholten Stichproben
↳ Menge von Werten , bei denen ein Hypothesentest zum 5% Signifikanzniveau die Nullhypothese ablehnt
Was versteht man unter Unverzerrtheit eines Schätzers?
Der Erwartungswert des Schätzers entspricht dem tatsächlichen Erwartungswert in der Grundgesamtheit.
Was versteht man unter Konsistenz?
Konsistenz eines Schätzers bedeutet, dass dieser im Zeitablauf (n geht gegen unendlich) gegen den wahren Wert konvergiert, wenn die Zufallsvariablen unabhängig und identisch verteilt sind und die Stichprobenvarianz kleiner als unendlich ist.
Wie hängt die Eigenschaft der Konsistenz mit der Varianz des Schätzers und der Stichprobengröße zusammen.
Wenn die Varianz des Schätzers gegen null und die Stichprobengröße gegen unendlich geht, nähert sich der Schätzer dem wahren Wert in der Grundgesamtheit an (Konsistenz).
OLS-Schätzer
minimiert die Summe der quadrierten Abweichungen zwischen den beobachteten Werten und den geschätzten Werten auf der Regressionsgeraden
Maße für die Güte der Anpassung
Lineare Regression mit einem Regressor
Wie gut erklärt die Regressionsgerade die Daten?
→ Standardfehler der Regression (SER)
→ root mean squared error (RMSE)
→ Bestimmtheitsmaß R2
Standardfehler der Regression (SER)
Misst die Größe eines typischen Residuums in der Einheit von Y.
→ misst die Spannweite der Verteilung von Y
→ (fast) die Stichproben-Standardabweichung der OLS Residuen
→ misst die durchschnittliche “Größe” der OLS Residuen
↳ (n-2): Korrektur um die Freiheitsgrade
root mean squared error (RMSE)
ähnlich SER → mit 1/n statt 1/(n-2)
Bestimmtheitsmaß R2
Misst den Anteil der Varianz von y der durch x erklärt wird.
↳ Anteil “erklärter” Variation von durch die Regression
• Dimensionslos
• 0 ≤ R2 ≤ 1 → kann negativ sein, wenn ohne Konstante geschätzt wird
OLS-Annahmen
Lineare Regression mit einem Regressor
- Unsystematische Fehler, Exogenität und Homoskedastizität
- i.i.d.-Stichproben
- Größere Ausreißer sind selten
- Unsystematische Fehler, Exogenität und Homoskedastizität
E(u)=0 → keine systematischen Fehler
→ u ist unabhängig von X → Fehler sind exogen → unverzerrt
→ u ist abhängig von Y (exogen) und nicht von X
Var(u)=sigma^2 → Varianz der Residuen ist = und unabhängig von X und anderen Größen (Homoskedastizität)
↳ Schätzer (ß1) ist varianzminimal
- i.i.d.-Stichproben
X und Y zufällig gezogen
Dies liefert die Stichprobenverteilung von den Parameter ß0 und ß1
- Größere Ausreißer sind selten
Technisch, X und Y haben endliche vierte Momente (Wöllbung)
→ Ausreißer können zu unsinnigen Ergebnissen von führen
Kontrollmöglichkeiten:
- Betrachtung eines Streudiagramms
- Bei mehr als 2 Dimensionen: Cook-Distanz → >1: Beobachtung aus dem Datensatz entfernen
Homoskedastizität
Varianz aller Residuen ist gleich und hängt weder von X noch von anderen Größen ab.
Zwei Probleme (wenn nicht):
→ Die Standardfehler der geschätzten Parameter sind nicht mehr konsistent.
(Ineffizienz)
→ OLS Schätzer ist nicht mehr BLUE, d.h. Varianz nicht minimal
aber es verursacht keine Verzerrungen
Inkonsistente Standardfehler
→ wenn es Heteroskedastie gibt
↳ Egal, ob die Störterme homoskedastisch oder heteroskedastisch sind, ist man auf der sicheren Seite, wenn man die robusten Standardfehler verwendet
Weighted Least Squares
↳ Bei Heteroskedastizität kann dervarianzminimierende Schätzer über die Methode der gewichteten kleinsten Quadrate (Weighted Least Squares, WLS) gefunden werden.
→ WLS benötigt die Kenntnis der Störterm-Varianzen
Vorteile von OLS
6
→ unverzerrt und konsistent
→ beste Schätzer, da er die geringste Varianz von allen konsistenten Schätzern hat
Heteroskedastie-robuste Standardfehler vorhanden
→ einfach Konfidenzintervalle & Hypothesen
→ akzeptierte Methode
↳ erleichtert die Kommunikation in der Wissenschaft
→ wichtige Sprache der Regressionsanalyse
→ einfache Interpretation der geschätzten Parameter (marginaler Effekt ceteris paribus)”
Nachteile von OLS
2
→ Annahmen sind oft nicht erfüllt
- Homoskedastie
- Unabhängigkeit von den Residuen und der unabhängigen Variable
- i.i.d. vor allen bei Zeitreihendaten
→ Starke Sensibilität gegenüber Ausreißern ↳ Andere Schätzer, die nicht auf quadratischen Abweichungen basieren, können effizienter sein
Multiple lineare Regressionsmodelle
Vektor-Matrizen-Schreibweise
→ y=Xβ+u
Gütemaße für multiple Regressionen
→ SER
→ RSME
→ R2
→ “adjustiertes” bzw. “korrigiertes” R2
adjustiertes R2
→ mit Korrektur der Freiheitsgrade, wodurch Schätzunsicherheit berücksichtigt wird
→ korrigiert das Problem (R2 wächst immer, wenn man einen weiteren Regressor hinzufügt) indem es uns für das Hinzufügen weiterer Regressoren “bestraft”
OLS-Annahmen für die multiple Regression
- Der bedingte Erwartungswert von u gegeben X ist Null.
- X und y sind i.i.d
- Ausreißer sind selten (endliche vierte Momente)
- Homoskedastizität
- Keine perfekte Multikollinearität
Perfekte Multikollinearität
Ein Regressoren ist die exakte lineare Funktion des anderen Regressoren
Imperfekte Multikollinearität
tritt auf, wenn zwei oder mehr Regressoren sehr hoch korreliert sind, aber nicht exakt linear voneinander abhängig sind.
→ ähnliche Punktediagramm einer geraden Linie
↳ ein oder mehrere Regressionskoeffizienten ungenau geschätzt werden
Lösung: Korrelationen bestimmen (deskriptive Statistik)
Zeigen Sie, dass der OLS-Schätzer unverzerrt ist
E(β̂) = E((X’X)^-1 X’y)
=E((X’X)^-1 X’(Xβ+u))
=β+E((X’X)^-1 X’u)
=β
Wodurch können bei OLS-Schätzungen Verzerrungen auftreten?
Verzerrungen entstehen, wenn
- Variablen, die mit dem Regressor X korreliert und Determinanten des Regressanden y sind, ausgelassen werden (omitted variable bias).
↳ Diese Variablen sollten in die Regression aufgenommen werden. - Eine oder mehrere X-Variablen von y abhängen. Man spricht auch von Endogenität von X, da X und u nicht mehr unabhängig sind, weil y von u und somit auch X von u abhängt.
Zeigen Sie, im Fall homoskedastischer Störterme (in Matrixnotation), die Cov(β)
^Cov(β̂) = (X’X)^-1 X’ Σ X(X’X)^-1
= (X’X)^-1X’X(X’X)^-1 Σ
= (X’X)^-1X’X(X’X)^-1 σ^2_u I
= (X’X)^-1 σ^2_u
^Σ= Varianz-Kovarianzmatrix der Residuen I = Einheitsmatrix