Theorie Flashcards

1
Q

Schiefe

A

Maß für die Asymmetrie einer Verteilung

=0 symmetrisch
>0 rechts schief
<0 links schief

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wölbung

A

Maß für die WSK-Masse in den tails

=3 Normalverteilung
>3 heavy tails

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Kovarianz

A

Maß des linearen Zusammenhangs zwischen X und Z

=0 unabhängig aber nicht viceversa

Cov(X,Z)>0 positiver linearen Zusammenhang

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Bedingte Verteilung

A

Verteilung von Y gegeben die Realisation von einer anderen Zufallsvariable X

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Korrelation

A

Corr(X,Z)=Cov(X,Z)/sqrt(Var(X)Var(Z))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Gesetz der großen Zahlen

CLT

A

Ȳ ist ein konstanter Schätzer für mu

Konsistenz

Ȳ konvergiert in WSK gegen den wahren Erwartungswert mu

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Zentraler Grenzwertsatz (CLT)

A

Ȳ kann gut durch die Normalverteilung approximiert werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

p-Wert

A

WSK ein Schätzergebnis zu bekommen, das mindestens genauso stark gegen die Null Hypothese spricht wie das tatsächliche berechnete

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Signifikanzniveau

2 Fehlerarten

A

Vorher festgelegte WSK der fälschlichen Ablehnung der Nullhypothese
-Fehler 1. Art

Fehler 2. Art → WSK Hypothese nicht abzulehnen obwohl sie falsch ist

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

95%-Konfidenzintervall

A

→ beinhaltet den wahren Wert von mu􏱝􏱞 in 95% von wiederholten Stichproben

↳ Menge von Werten , bei denen ein Hypothesentest zum 5% Signifikanzniveau die Nullhypothese ablehnt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was versteht man unter Unverzerrtheit eines Schätzers?

A

Der Erwartungswert des Schätzers entspricht dem tatsächlichen Erwartungswert in der Grundgesamtheit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was versteht man unter Konsistenz?

A

Konsistenz eines Schätzers bedeutet, dass dieser im Zeitablauf (n geht gegen unendlich) gegen den wahren Wert konvergiert, wenn die Zufallsvariablen unabhängig und identisch verteilt sind und die Stichprobenvarianz kleiner als unendlich ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wie hängt die Eigenschaft der Konsistenz mit der Varianz des Schätzers und der Stichprobengröße zusammen.

A

Wenn die Varianz des Schätzers gegen null und die Stichprobengröße gegen unendlich geht, nähert sich der Schätzer dem wahren Wert in der Grundgesamtheit an (Konsistenz).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

OLS-Schätzer

A

minimiert die Summe der quadrierten Abweichungen zwischen den beobachteten Werten und den geschätzten Werten auf der Regressionsgeraden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Maße für die Güte der Anpassung

Lineare Regression mit einem Regressor

A

Wie gut erklärt die Regressionsgerade die Daten?

→ Standardfehler der Regression (SER)
→ root mean squared error (RMSE)
→ Bestimmtheitsmaß R2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Standardfehler der Regression (SER)

A

Misst die Größe eines typischen Residuums in der Einheit von Y.
→ misst die Spannweite der Verteilung von Y
→ (fast) die Stichproben-Standardabweichung der OLS Residuen
→ misst die durchschnittliche “Größe” der OLS Residuen
↳ (n-2): Korrektur um die Freiheitsgrade

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

root mean squared error (RMSE)

A

ähnlich SER → mit 1/n statt 1/(n-2)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Bestimmtheitsmaß R2

A

Misst den Anteil der Varianz von y der durch x erklärt wird.
↳ Anteil “erklärter” Variation von 􏱶 durch die Regression
• Dimensionslos
• 0 ≤ R2 ≤ 1 → kann negativ sein, wenn ohne Konstante geschätzt wird

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

OLS-Annahmen

Lineare Regression mit einem Regressor

A
  1. Unsystematische Fehler, Exogenität und Homoskedastizität
  2. i.i.d.-Stichproben
  3. Größere Ausreißer sind selten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q
  1. Unsystematische Fehler, Exogenität und Homoskedastizität
A

E(u)=0 → keine systematischen Fehler
→ u ist unabhängig von X → Fehler sind exogen → unverzerrt
→ u ist abhängig von Y (exogen) und nicht von X

Var(u)=sigma^2 → Varianz der Residuen􏱶 ist = und unabhängig von X und anderen Größen (Homoskedastizität)
↳ Schätzer (ß1) ist varianzminimal

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q
  1. i.i.d.-Stichproben
A

X und Y zufällig gezogen

Dies liefert die Stichprobenverteilung von den Parameter ß0 und ß1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q
  1. Größere Ausreißer sind selten
A

Technisch, X und Y haben endliche vierte Momente (Wöllbung)

→ Ausreißer können zu unsinnigen Ergebnissen von 􏲩 führen

Kontrollmöglichkeiten:

  1. Betrachtung eines Streudiagramms
  2. Bei mehr als 2 Dimensionen: Cook-Distanz → 􏲫>1: Beobachtung aus dem Datensatz entfernen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Homoskedastizität

A

Varianz aller Residuen􏱶 ist gleich und hängt weder von X noch von anderen Größen ab. 


Zwei Probleme (wenn nicht):
→ Die Standardfehler der geschätzten Parameter sind nicht mehr konsistent. 
(Ineffizienz)
→ OLS Schätzer ist nicht mehr BLUE, d.h. Varianz nicht minimal

aber es verursacht keine Verzerrungen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Inkonsistente Standardfehler

A

→ wenn es Heteroskedastie gibt
↳ Egal, ob die Störterme homoskedastisch oder heteroskedastisch sind, ist man auf der sicheren Seite, wenn man die robusten Standardfehler verwendet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Weighted Least Squares

A

↳ Bei Heteroskedastizität kann dervarianzminimierende Schätzer über die Methode der gewichteten kleinsten Quadrate (Weighted Least Squares, WLS) gefunden werden. 


→ WLS benötigt die Kenntnis der Störterm-Varianzen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Vorteile von OLS

6

A

→ unverzerrt und konsistent

→ beste Schätzer, da er die geringste Varianz von allen konsistenten Schätzern hat
Heteroskedastie-robuste Standardfehler vorhanden

→ einfach Konfidenzintervalle & Hypothesen 


→ akzeptierte Methode
↳ erleichtert die Kommunikation in der Wissenschaft

→ wichtige Sprache der Regressionsanalyse

→ einfache Interpretation der geschätzten Parameter (marginaler Effekt ceteris paribus)”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Nachteile von OLS

2

A

→ Annahmen sind oft nicht erfüllt

- Homoskedastie
- Unabhängigkeit von 􏱶den Residuen und der unabhängigen Variable 􏱶
- i.i.d. vor allen bei Zeitreihendaten

→ Starke Sensibilität gegenüber Ausreißern
↳ Andere Schätzer, die nicht auf quadratischen Abweichungen basieren, können effizienter sein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Multiple lineare Regressionsmodelle

A

Vektor-Matrizen-Schreibweise

→ y=Xβ+u

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Gütemaße für multiple Regressionen

A

→ SER
􏰈→ RSME
􏰈→ R2
→ “adjustiertes” bzw. “korrigiertes” R2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

adjustiertes R2

A

→ mit Korrektur der Freiheitsgrade, wodurch Schätzunsicherheit berücksichtigt wird

→ korrigiert das Problem (􏰈R2 wächst immer, wenn man einen weiteren Regressor hinzufügt) indem es uns für das Hinzufügen weiterer Regressoren “bestraft”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

OLS-Annahmen für die multiple Regression

A
  1. Der bedingte Erwartungswert von u gegeben X ist Null.
  2. X und y sind i.i.d
  3. Ausreißer sind selten (endliche vierte Momente)
  4. Homoskedastizität
  5. Keine perfekte Multikollinearität
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Perfekte Multikollinearität

A

Ein Regressoren ist die exakte lineare Funktion des anderen Regressoren 


How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Imperfekte Multikollinearität

A

tritt auf, wenn zwei oder mehr Regressoren sehr hoch korreliert sind, aber nicht exakt linear voneinander abhängig sind.

→ ähnliche Punktediagramm einer geraden Linie

↳ ein oder mehrere Regressionskoeffizienten ungenau geschätzt werden

Lösung: Korrelationen bestimmen (deskriptive Statistik)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Zeigen Sie, dass der OLS-Schätzer unverzerrt ist

A

E(β̂) = E((X’X)^-1 X’y)
=E((X’X)^-1 X’(Xβ+u))
=β+E((X’X)^-1 X’u)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Wodurch können bei OLS-Schätzungen Verzerrungen auftreten?

A

Verzerrungen entstehen, wenn

  1. Variablen, die mit dem Regressor X korreliert und Determinanten des Regressanden y sind, ausgelassen werden (omitted variable bias).
    ↳ Diese Variablen sollten in die Regression aufgenommen werden.
  2. Eine oder mehrere X-Variablen von y abhängen. Man spricht auch von Endogenität von X, da X und u nicht mehr unabhängig sind, weil y von u und somit auch X von u abhängt.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Zeigen Sie, im Fall homoskedastischer Störterme (in Matrixnotation), die 􏰚􏰛􏰜􏰑􏰉Cov(β)

A

^Cov(β̂) = (X’X)^-1 X’ Σ X(X’X)^-1

= (X’X)^-1X’X(X’X)^-1 Σ
= (X’X)^-1X’X(X’X)^-1 σ^2_u I
= (X’X)^-1 σ^2_u

^Σ= Varianz-Kovarianzmatrix der Residuen
I = Einheitsmatrix
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Gemeinsame Hypothese

A

Spezifiziert einen Wert für zwei oder mehr Koeffizienten, d.h. sie legt für zwei oder mehr Koeffizienten eine Restriktion auf.
􏰈
Im Allgemeinen kann eine gemeinsame Hypothese q Restriktionen beinhalten.

Dieser “eine nach der anderen”-Test ist nicht valide: der resultierende Test verwirft zu oft unter der Nullhypothese (in mehr als 5% der Fälle)!

38
Q

Warum können wir die Koeffizienten nicht einen nach dem anderen testen?

A
  1. Weil die Verwerfungsrate unter der Nullhypothese nicht 5% ist.
  2. Weil die Koeffizienten nicht unabhängig voneinander sind.
    􏰘􏰱
    Die Wahrscheinlichkeit, die Nullhypothese mit diesem Test fälschlicher- weise zu verwerfen, ist 9.5% – nicht die gewünschten 5%!
39
Q

Die F-Statistik

A

Testet alle Teile einer gemeinsamen Hypothese auf einmal.

Verwerfe wenn 􏳞 groß ist!
→ Die 􏳞F-Statistik ist groß, wenn eine oder mehrere t-Werten der einzelnen Hypothesen groß sind.

→ Die F􏳞-Statistik korrigiert (auf genau die richtige Weise) für die Korrelation zwischen 􏰜􏰩 den t-Werten (t1 und t2)

hinreichend große 􏱢n ist die F-Statistik 􏳟Chi2 verteilt mit 􏳠q Freiheitsgraden
(t-Werte sind normalverteilt)

Bei kleineren Stichproben gilt die 􏳞F-Verteilung mit den Freiheitsgraden 􏳠q und n-k-1

40
Q

Die Verteilung der 􏳧F-Statistik in großen Stichproben

A

Chi^2/q

Die Verteilung der F􏳞-Statistik in großen Stichproben ist die Verteilung des Durchschnitts zweier unabhängiger quadrierter standardnormalverteilter Zufallsvariablen. 


41
Q

Chi-Quadrat-Verteilung

A

mit q Freiheitsgraden

ist definiert als die Verteilung der Summe von q unabhängigen quadrierten standardnormalverteilten Zufallsvariablen. 


42
Q

Die F-Statistik bei Homoskedastie

A

→ restringierte und umrestringiertes Modell

verwirft, wenn Hinzufügen der Variablen das R^2􏰔􏰷 “genügend” erhöht, d.h. wenn Hinzufügen der Variablen die Anpassung der Regression “hinreichend” verbessert. 


→ Wenn die Fehler heteroskedastisch sind, muss F anders berechnet werden. 

↳ Heteroskedastie-robuste F-Statistik

43
Q

Konfidenzbereich

A

Die Überdeckungswahrscheinlichkeit eines Konfidenzbereichs ist die Wahrscheinlichkeit, dass der Konfidenzbereich die wahren Parameterwerte enthält. 


3.00 ist der kritische Wert der 􏲙􏰷􏰷F-Verteilung zum 5%-Niveau.

Überdeckungswahrscheinlichkeit von 95%, da der zugrundeliegende Test ein Niveau von 5% hat.

44
Q

Warum ist die Varianz-Kovarianzmatrix der Residuen bei Heteroskedastie eine Diagonalmatrix? Welche Dimension hat sie? Warum ist sie symmetrisch? Was könnte die Ursache dafür sein, dass diese Matrix in anderen Fällen auch mal keine Diagonalmatrix ist?

A

Bei der Varianz-Kovarianzmatrix stehen in der Hauptdiagonalen die Varianzen und in den übrigen Elementen die Kovarianzen.
↳ Bei Homoskedastie gibt es eine Identitätsmatrix

Eine Diagonalmatrix ist eine quadratische Matrix, bei der alle Elemente außerhalb der Hauptdiagonale Null sind. Daher hat die Matrix die Dimension n*n und ist symmetrisch.

Da die Kovarianzen null sind, ist die Varianz-Kovarianzmatrix der Residuen bei Heteroskedastie eine Diagonalmatrix.

Keine Diagonalmatrix kann entstehen, wenn zwischen den Störgrößen Korrelationen vorliegen (z.B. bei Zeitreihendaten: Saisoneffekte). Die Kovarianzen sind nicht mehr alle null.

45
Q

Erklären Sie verbal, warum sich bei Betrachtung mehrerer Parameter gleichzeitig als Konfidenzbereich eine Ellipse bzw. in höher-dimensionalen Räumen ein Ellipsoid ergibt

A

In eckigen Klammern steht eine Ellipsengleichung (Normalform: x²/a²+y²/b²=1).
↳ Wegen der unterschiedlichen Standardfehler wird der Kreis gestaucht und somit ellipsenförmig und wegen der Interaktionseffekte liegt diese Ellipse schräg im β1-β2-Raum.

Im höherdimensionalen Raum (z.B. drei βs) würde aufgrund von mehr Einflussfaktoren eine Ellipsoidgleichung vorliegen, sodass statt der Ellipse ein Ellipsoid entsteht.

46
Q

Das “richtige” Modell

Multiple lineare Regressionsmodelle

A

→ Urteilskraft + die ökonomische Theoriefür Variablen Wahl

→ Theorien auch testen, indem man für jede Theorie eine Schätzgleichung spezifiziert und dann die Ergebnisse vergleicht.
􏰈
→ Das Weglassen relevanter Variablen kann zu verzerrten Schätzern führen.
↳ Wenn solche Variablen zur Verfügung stehen, sollten sie auch benutzt werden.

→ Es geht nicht darum, ein möglichst hohes R2 zu erzielen.

→ Nicht-Signifikanzen sind wichtig (wenn das korrekte Modell geschätzt wurde)
􏰈
→ Nachdenken, ob die geschätzten Effekte wirklich kausal interpretiert werden können. (Korrelationen)

→ möglicher Probleme beim Interpretieren der Ergebnisse

47
Q

Probleme der OLS-Schätzung bei Nichtlinearität

A

nichtlinearer Zusammenhang kann nur abschnittsweise durch eine lineare Funktion approximiert werden
↳ 􏰈Approximation schlecht → Schätzer verzerrt & heteroskedastisch

Verzerrung → Störgrößen sind in der Mitte tendenziell positiv und am Rand negativ (􏲃u ist abhängig von X)

Heteroskedastie → in der Mitte und an den Rändern ist die Varianz von 􏲃 am größten.

48
Q

Problem bei nonlinear least squares (NLS)

A

Es kann mehrere lokale Minima geben.

Das iterative Verfahren (Programm sucht in Richtung negativer Steigung nach dem Minimum) konvergiert nicht immer, insbesondere dann, wenn einige Variablen mit zwei Koeffizienten verknüpft sind.


49
Q

Taylorapproximation

A

Das nichtlineare Modell wird durch ein lineares approximiert 


Probleme:

  1. Zahl der Parameter steigt quadratisch mit k
  2. Annäherung ist gut nur in kleiner Umgebung der “Stützstelle”.
50
Q

Interaktionsterme

A

Wähle einige sinnvolle Kreuzprodukte → modelliert Interaktionen zwischen x1x2 Regressoren


↳ Der Effekt einer Änderung in 􏰑􏱹x1 auf y􏳐 hängt ab von x2 􏰑􏱒 (und umgekehrt).

51
Q

Stolper-Samuelson-Theorems

Interaktionsterme

A

Befragungsdaten über Einstellungen zur Globalisierung

  1. Schätzung ohne Interaktionsterm: positiver Einfluss von Bildung: Gebildete Menschen sind weltoffen.
  2. Schätzung mit Interaktionsterm: Vorzeichen der ersten Schätzung dreht sich um.

→ positiver Einfluss der Variable “Inld. Bildung x BIP/Kopf des Wohnsitzlandes”.
→ BIP/Kopf ist ↑ in Ländern, mit ↑ Bildung
↳ Menschen mit ↑ Bildung, die in Ländern leben, die reichlich mit Humankapital ausgestattet sind, sind für Globalisierung.
↳ Menschen mit ↑ Bildung, die in Ländern mit schlechter Humankapitalausstattung leben, sind gegen Globalisierung. 􏳮

Bestätigung des Stolper-Samuelson-Theorems 


52
Q

Externe Einflüsse

Interaktionsterme: steitige Variable mit Dummy

A

Oft tritt der Fall auf, dass
→ für einen Teil der Stichprobe ein bestimmter konstanter Effekt einer Änderung in x2􏰑􏱹 vorliegt aber für einen anderen Teil der Stichprobe ein anderer (ebenfalls konstanter) Effekt

→ wir wollen herausbekommen, ob solche Unterschiede bestehen
(Dummy Variablen)

53
Q

Warum Logarithmen?

A

→ Auffangen der Effekte von Größenunterschieden für Parameterschätzungen

→ Partielles Auffangen größenbedingter Heteroskedastie

→ Interpretation der Parameter als Elastizitäten bzw. Semielastizitäten.

54
Q

Elastizitäten und Semielastizitäten

A

Linear y - log(x) → Δy - (ß/100)% Δx

log(y) - linear x → %Δy -(100ß) Δx

log - log → Δ %-Punkte

55
Q

Woher weiß man, dass Nichtlinearitäten vorliegen?

A

Graphische Analyse

Tests

Ökonomische Theorie

56
Q

Interne Validität

A

Die statistische Inferenz bezüglich kausaler Effekte ist für die betrachtete Population valide (􏰂gute Statistik􏰂)

57
Q

Fünf Gefahren für die interne Validität

A

→ Schätzer ist verzerrt und inkonsistent

  1. Ausgelassene Variablen
  2. Fehlerhafte funktionale Form
  3. Messfehler in den Variablen
  4. Verzerrung durch selektive Stichproben
  5. Simultane Kausalität/Beeinflussung
58
Q
  1. Ausgelassene Variablen

omitted-variable-biased

A

Sie entsteht, wenn eine ausgelassene Variable eine Determinante von y ist und mit mindestens einem einbezogenen Regressor korreliert. 

↳ Wann unberücksichtigten Variablen mit einem oder mehreren Variablen aus X korreliert sind, dann sind X und u korreliert.

Lösungen:
→ Variable in die Regression einfügen
→ Paneldaten
→ Randomisiertes kontrolliertes Experiment durchführen (teuer)

59
Q
  1. Fehlerhafte funktionale Form
A

↳ Verzerrung + Heteroskedastie

Lösungen:
→ Stetige abhängige Variable: “geeignete” nichtlineare Transformationen für X (Log, Interaktionen, quadratische) oder NLS
→ Diskrete (bspw. binäre) abhängige Variable: Schätzung mit Maximum-Likelihood-Methoden (“probit” oder “logit”).

60
Q
  1. Messfehler in den Variablen/Daten
A

↳ Verzerrung

  • Fehler beim Verarbeiten administrativer Daten
  • Erinnerungslücken in Umfragen
  • Unklare Fragen
  • Absichtlich falsche Antworten

Lösungen:
→ Bessere Daten
→ spezielles Modell für den Messfehlerprozess: möglich nur wenn man viel über den Messfehler weiß

61
Q
  1. Stichprobenverzerrung → Verzerrung durch selektive Stichproben
A

↳ entsteht, wenn der Auswahlprozess: das Vorhandensein der Daten beeinflusst unddieser Prozess mit der abhängigen Variablen in Verbindung steht. 


Lösungen:
→ Daten sammeln
→ randomisiertes kontrolliertes Experiment

62
Q
  1. Simultane Kausalität/Beeinflussung (Endogenität)
A

↳ X beeinflusst kausal y aber y beeinflusst auch kausal X

Wenn y über von u abhängt und X von y abhängt, dann hängt X von u ab.
ist dann verzerrt und inkonsistent

Lösungen:
→ Randomisiertes kontrolliertes Experiment
→ Mehrgleichungsmodell
→ vollständiges Modell beider Kausalitätsrichtungen

63
Q

Externe Validität

A

↳ statistische Inferenz kann mit zu anderen Populationen/Situationen übertragen werden, wobei die “Situationen” sich auf etwa die rechtliche, politische, zeitliche oder physische Umgebung beziehen.

Wie weit kann man die Ergebnisse verallgemeinern?
→ Unterschiede in Populationen
→ Unterschiede in den Rahmenbedingungen

64
Q

Prognosen

A

Prognose und Schätzung von kausalen Effekten sind recht unterschiedliche Ziele

→ R2 ist (sehr!) wichtig.
→ wichtig: ein guter Fit und ein vertrauenswürdiges Modell
→ Externe Validität ist sehr wichtig

→ Verzerrung durch ausgelassene Variablen ist egal!
→ Interpretieren der Koeffizienten ist nicht wichtig

Problem: 􏰂out of sample􏰜􏰃 - Prognosen

65
Q

Vorteile des linearen Modells

Regression mit binären/dichotomen abhängigen Variable

A
  • einfach zu schätzen und zu interpretieren

- Inferenz ist die gleiche wie bei der multiplen Regression (braucht Heteroskedastie-robuste Standardfehler) “

66
Q

Nachteile des linearen Modells

Regression mit binären/dichotomen abhängigen Variable

A

Warum sollte die Wahrscheinlichkeit in x linear sein?

Vorhergesagte WSK können negativ oder größer als 1 sein!

Die Nachteile können durch das Verwenden eines nichtlinearen WSK-modells beseitigt werden: Probit- und Logit-Regression. “

67
Q

Probit-Regression

A

modelliert die WSK, dass y􏰝􏰧 = 1, durch die Verteilungsfunktion der Standardnormalverteilung, ausgewertet an der Stelle 􏰭 z=Xβ (z-Index)

68
Q

Probit-Regression

Formel

A

Pr(y=1 | x)= ɸ(β0+β1x1+…)

ɸ: Verteilungsfunktion der Standardnormalverteilung

69
Q

Schätzung mithilfe der Maximum-Likelihood-Methode (ML)

A

Wähle die Parameter so, dass die Wahrscheinlichkeit für das Zustandekommen des Stichprobenergebnisses maximiert wird!

→ Daten ordnen, zuerst alle = 1 und dann alle =0

70
Q

Likelihoodfunktion einer Probit-Schätzung

Erklären Sie die Formel verbal und erläutern Sie anhand der Formel die Idee/ das Konzept hinter dem ML-Verfahren!

A

L=∏(Φ(xiβ)) ∏(1-Φ(xiβ))

Φ(xiβ) ist die Wahrscheinlichkeit dafür, dass ein bestimmtes yi 1 ist

Produkt von WSK:

  1. Gesamt-WSK, dass y=1 ist
  2. Gesamt-WSK, dass y=0 ist

→ L􏰻 logarithmiert
→ L􏰀 ist – als Produkt von WSK – sehr klein
↳ ln(L)<0

71
Q

Asymptotische Eigenschaften des ML

A

→ Konsistenz
􏰀
→ Normalverteilung

→ Effizienz

72
Q

Anmerkungen

Probit

A

Das Koeffizient kann nicht als marginaler Effekt von x auf die WSK interpretiert werden, sondern 


↳ wir müssen es mit der 􏰀 Stelle, der Dichtetunktion multiplizieren 

↳ für jedes Individuum gibt es eine andere WSK

73
Q

Gütemaße

Probit

A

→ Log-Likelihood (je größer, desto besser).

→ Pseudo R2􏱃􏰠, basierend auf dem Likelihood-Verhältnistes, mit verschiedenen Berechnungsmöglichkeiten


→ Akaike-Informationskriterium (“bestraft” große Zahl von Regressoren): 􏰔je kleiner, desto besser

74
Q

Restringierte vs. unrestringierte Modellen

A

Likelihood-Verhältnistest: 

↳Chi^2 -verteilt (Zahl der Freiheitsgrade = Zahl der Restriktionen)

Wald-Test mit Chi^2-verteilter Teststatistik → braucht keine 2. Schätzung

75
Q

Logit-Regression

+ Formel

A

WSK, dass y=1 ist über die kumulierte standard-logistische Verteilungsfunktion

Pr(y=1 | x)= 1/(1+e^(-β0-β1x1-…))

76
Q

Logit und Probit

A

→ Ähnliche Ergebnisse 
 → Gleiche Interpretation 
 → Gleiche Gütekriterien und Tests

  • Koeffizienten sind normalverteilt für große 􏰹n
  • Hypothesentests oder Konfidenzintervalle in großen Stichproben funktionieren wie üblich.
77
Q

Paneldaten

A

enthalten Beobachtungen von Objekten, wobei jedes Objekt zu verschiedenen Zeitpunkten beobachtet wurde

78
Q

Vorteile von Paneldaten

3

A

Berücksichtigung von Faktoren, die:

→ sich zwischen verschiedenen Objekten unterscheiden, aber nicht zeitabhängig variieren

→ durch Auslassung Verzerrungen verursachen könnten

→ nicht beobachtbar sind oder nicht gemessen wurden und daher nicht in die Regression aufgenommen werden können

79
Q

unbeobachtete Heterogenität

A

Eigenschaften der Individuen/Beobachtungen die konstant sind, aber nicht beobachtbar sind (kann zu Verzerrungen führen)

80
Q

Verzerrung wegen fehlender Variablen (“omitted variable bias”)

(Paneldaten)

A

Beobachtete Heterogenität

Paneldaten helfen uns, die “omitted variable”-Verzerrung zu eliminieren, sofern die ausgelassene Variable in einem Staat über die Zeit konstant ist

81
Q

Differenzenbildung

A

Z_i ist der Faktor, der sich, zumindest im Zeitablauf der beobachteten Jahre, nicht ändert und spezifisch für Beobachtung

→ unbeobachtete Heterogenität
􏱕􏱆nicht beobachtet (vllt. nicht einmal bekannt) → “omitted variable“-Verzerrung
Bei mehr als zwei Zeitperioden könnte man􏱕 ebenfalls durch Differenzenbildung eliminieren
Problem: Die neue Störgröße ist autokorreliert → Störgröße ist nicht iid

82
Q

“Fixed effects”-Schätzung

A

ɑi → fixed effects → spezifische Achsenabschnitte für die jeweilige Beobachtungseinheit

83
Q

Zwei Schätzmethoden

“Fixed effects”

A

→ Identische Ergebnisse

  1. Schätzung aller ɑi
  2. “entity-demeaned“ OLS-Regression: Subtrahiere von allen Variablen ihren zeitlichen Mittelwert

→ Unterschiede:
Rechenaufwand für große n
Ergebnisse für ɑi→ Braucht man sie überhaupt? Begrenzte # Beobachtungen (z.B. Länder)
Möglichkeit einer weiteren Regression zur Bestimmung der Einflussgrößen von 􏱦􏱧

84
Q

Spezifische Annahmen

Paneldaten

A
  1. Störgrößen haben Erwartungswert null

    ↳ keine Kopplung von u in die Zukunft von X

  2. Alle x und y sind iid
    erfüllt, sofern Objekte zufällig aus der Grundgesamtheit gezogen werden
    setzt nicht voraus, dass die Beobachtungen für ein Objekt über die Zeit iid sind
  3. Keine Autokorrelation der Störterme
    ↳ Unbeobachtete Größen, die in 􏱪 enthalten sind, dürfen nicht zeitlich korreliert sein
    ↳ Eine Verletzung hat dieselben Effekte wie Heteroskedastizität (ineffiziente Schätzung)

Bei “fixed effcts”-Schätzungen dürfen keine zeitinvarianten Regressoren benutzt werden → Multikollinearität

85
Q

time fixed effects

A

→ für jede Zeiteinheit wird eine Dummy Variable genommen damit die unbeobachtete Heterogenität tauchen

→ Berücksichtigung von zeitspezifischer unbeobachteter Heterogenität

86
Q

pooled regression

A

Normale OLS-Schätzung ohne Berücksichtigung der Besonderheiten von Paneldaten

↳ Funktioniert nur dann gut, wenn die unbeobachtete Heterogenität nicht mit den Regressoren korreliert ist

87
Q

“Random effects”-Schätzung

A

ɑi → zusätzliche spezifisch Störgröße → Normalverteilt

88
Q

Vorteil von random effects

A

Möglichkeit der gleichzeitigen Berücksichtigung zeitinvarianter Merkmale und unbeobachteter Heterogenität

89
Q

Nachteile von random effects

A
  1. Hohe Anforderungen an Unabhängigkeit von ɑi und ui
  2. Komplizierte mehrstufige Schätzung
  3. Unterschiedliche Programme produzieren unterschiedliche Ergebnisse
90
Q

OLS Schätzer

Multiple Regression

A

β̂ = (X’X)^(-1) X’y

91
Q

Konfidenzbereich und Ellipse

A

Der Ausdruck der Konfidenzbereich ist eine quadratische Form in β̂1 und β̂2.

In einem Diagram ist das dann eine Ellipse, wenn die Standardfehler von beide β̂ unterschiedlich sind und ein Kreis, wenn sie gleich sind.

Ellipseform → x²/a²+y²/b²=1