Theorie Flashcards

Question

Dickey Fuller (DF) Test

Answer 1

Allgemeiner und erlaubt mehr Lags (p\>1)

Answer 2

Drei verschiedene Testspezifikationen sind zu unterscheiden: * Ohne Konstante, ohne deterministischen Zeittrend: * ∆Yt = δY_t−1 +γ₁∆Y_t−1 +...+γ_p−1∆Y_t−p+1 +w_t * Mit Konstante, ohne deterministischen Zeittrend: * ∆Y_t =c+δY_t−1+...+γ_p−1∆Y_t−p+1+w_t * H1: Y ist stationär um eine Konstante * Mit Konstante, mit deterministischen Zeittrend: * ∆Yt =c+ζ_t+δY_t−1+...+γ_p−1∆Y_t−p+1+w_t * H1: Y ist trendstationär

Answer 3

1. Momentenmethode 2. KQ Methode 3. Maximum Likelihood Methode * bei AR Modellen führen alle Modelle asymptotisch zur gleichen Verteilung (konsistent, asymptotisch normalverteilt). * Sind MA Terme involviert: * Momentenmethode nicht effizient * höhere Schätzvarianz) * Manchmal erhalten wir keine Lösung

Answer 4

Cov (Y_t,Y_t−h) = φ₁Cov (Y_t−1,Y_t−h)+φ₂Cov (Y_t−2,Y_t−h)+Cov (w_t,Y_t−h) Yule-Walker Gleichungen bei einem AR(p) Prozess: γ_h =φ₁γ_h−1+...+φ_pγ_h−p σ² =γ₀−φ₁γ₁−...−φ_pγ_h−p Daraus können die Modellparameter φ₁, φ₂ und σ² bestimmt werden

Answer 5

* nichtlinear in den Koeffizienten * Das Verhältnis der Varianzen zwischen Momentenschätzer und Maximum Likelihood Schätzer in großen Stichproben z.B. θ = 0.5 ist ca. 3.5.

Answer 6

* X, Y und Z seien Zufallsvariablen. * Die partielle Korrelation zwischen X und Y, gegeben Z, erhalten wir durch Regression von X auf Z (um Xˆ zu erhalten) und Regression von Y auf Z (um Yˆ zu erhalten)

Answer 7

* 1. Term: ↑p (# Lags) → bessere Anpassung an die Daten, ↓SSR * 2. Term ↑ mit ↑p (da Strafterm ist) * Je kleiner BIC(p), desto besser

Answer 8

* Der ”Strafterm” beim Akaike Kriterium ist geringer als beim Bayes Kriterium (2 \< lnT) für T ≥ 8. * AIC schätzt eine höhere Ordnung p als BIC. * AIC überschätzt p, ist also keine konsistente Schätzfunktion

Answer 9

**Ziel**: * Identifikation und statistische Erfassung von Fehlern * weißes Rauschen (keine Stuktur oder Abhängigkeiten) für die Störterme → i.i.d. Annahme * Weist die Fehlerdiagnose auf verbliebene Struktur in den Residuen hin, muss man den Prozess der Modellidentifikation neu beginnen

Answer 10

* nutzt eine oder mehrere exogene Variablen, X_i, um die Zeitreihe zu modellieren * X_imüssen stationär sein

Answer 11

* Ŷ_T+h|T (die Vorhersage für Y_T+h zum Zeitpunkt T) ist eine Funktion der Informationsset * Der beste Prädiktor ist die bedingte Erwartung von Y_T+h * Kriterium: Minimierung des erwarteten quadrierten Vorhersagefehlers

Answer 12

* Allgemein: y_T+h|T= φ^hy_T * der letzte beobachtete Wert y_Tenthält alle benötigten Informationen, um den Prädiktor zu bestimmen. * wenn h groß ist, konvergiert der Prädiktor gegen 0 (unbedingte Erwartung von y_T)

Answer 13

nicht informativ für Prognosen mit h\>1→ auch an der ACF erkennbar, die nach einem Lag abreißt

Answer 14

* Die Genauigkeit nimmt nicht weiter ab, wenn man beim MA(1) mehr als 2 Schritte in die Zukunft prognostiziert * Unbedingte Varianz → obere Schranke für die Ungenauigkeit * Langfristig klingt also der Informationsgehalt ab und der bedingte Prädiktor konvergiert zum unbedingten Präadiktor (also zum Mittelwert)

Answer 15

* Für (pseudo) out-of-sample Prognosen dürfen wir zur Modellspezifikation und Parameterschätzung **nur Daten verwenden, die bis zu diesem Zeitpunkt verfügbar gewesen wären**. * Das Modell mit dem besten in-sample Fit oder dem niedrigsten AIC/BIC Kriterium muss keinesfalls auch out of sample am besten abschneiden!

Answer 16

* **Schätzfehler** der Parameter in endlichen Stichproben (selbst wenn die Modellspezifikation stimmt). * **Modellunsicherheit** (Modellspezifikation stimmt nicht). * **Datengenerierender Prozess ändert sich über die Zeit** (z.B. aufgrund von Strukturbrüchen oder graduellen Veränderungen).

Answer 17

Für unverzerrte Prognosen erwarten wir β2 = 1 und β1 = 0.

Answer 18

* Funktion, die **den Verlust/die Kosten des Handelns basierend auf falschen Prognosen quantifiziert**. * L(e_T+h) ≥ 0 nimmt an, dass der Verlust nicht von y_T+h und auch nicht von der Periode selbst abhängt. * Oft: symmetrische quadratische Verlustfunktion L(e_T+h) = e_T+h² * Asymmetrische Verlustfunktionen sind auch denkbar * z.B. wenn Überschätzung zu gravierenderen Konsequenzen führt als Unterschätzung und umgekehrt.

Answer 19

Die durchschnittliche Differenz in den Verlustfunktionen der beiden Prognosen vergleichen, um 2 oder mehr Prognosenmodelle zu vergleichen. * d muss als Voraussetzung für den Test auf (schwache) Stationarität überprüft werden * H0: d=0 → gleiche Prognosegenauigkeit * d\>0, wenn Modell 2 besser aös 1 prognostiziert

Answer 20

gilt besonders für hohe Beobachtungsfrequenzen, zum Beispiel täglich oder wöchentlich

Answer 21

Konzept der autoregressiven bedingten Heteroskedastizität vor (**A**uto**R**egressive **C**onditional **H**eteroskedasticity) * Die bedingte Varianz des Störterms zum Zeitpunkt t hängt von den quadrierten Störtermen vergangener Perioden ab.

Answer 22

* Damit σ_t²≥ 0, muss ω ≥ 0 und α ≥ 0. * Auf einen (betragsmäßig) großen Schock in Periode t − 1 folgt tendenziell ein (betragsmäßig) hohes ε_t. * Die ARCH(1) Spezifikation impliziert nicht, dass der Prozess für ε_t nicht-stationär ist. * Sie impliziert, dass die quadrierten Werte ε²_t und ε²_t−1 korreliert sind.

Answer 23

**Damit stellt man (formal) fest, ob die Störterme bedingt heteroskedastisch sind** * Nullhypothese: Homoskedastizität (α₁ = ... = α_p = 0) * Hilfsregression der quadrierten Residuen auf verzögerte quadrierte Residuen und eine Konstante. * Teststatistik: T ·R² * Unter H0 :T·R² ∼ χ²(p) * Der Test ist nur gültig, wenn die Fehler nicht autokorreliert sind * (also Autokorrelation zuerst prüfen).

Answer 24

* Stationarität erfordert, dass α + β \< 1. * Falls α + β nur knapp unter 1 ist, impliziert dies, dass die Persistenz in der Volatilität hoch ist. * Falls α + β = 1, erhalten wir das sogenannte IGARCH Modell, in dem Volatilitätsschock einen permanenten Effekt haben. * I: Integrated * Das GARCH(1, 1) Modell kann auch als ARCH(∞) Prozess ausgedrückt werden. * Da das GARCH(p, q) als ARMA(p, q) für ε²_t interpretiert werden kann, kann man die (P)ACF für die quadrierten Residuen anwenden.

Answer 25

Asymmetrische Verhalten, in denen gute und schlechte Nachrichten einen unterschiedlichen Effekt auf die zukünftige Volatilität haben.

Answer 26

**Threshold GARCH (TGARCH)** σ_t²=ω+αε_t-1² +βσ_t-1² +ηI_t-1ε_t-1² wobei I_t−1= 1, falls ε_t−1\< 0, und sonst 0 ist. Falls η \> 0, haben negative Schocks eine höhere Auswirkung auf die zukünftige Volatilität als positive Schocks gleichen Ausmaßes.

Answer 27

* Maximum Likelihood Methode * Die Parameter θ, ω, α, β werden so gewählt, dass die (Log)-Likelihood maximiert wird. * Falls w_t nicht normalverteilt ist, kann Maximum Likelihood **auch bei inkorrekter Normalverteilungsannahme konsistente Schätzwerte liefern**. * Die Bedingungen erster Ordnung bei Maximum Likelihood sind auch gültig , wenn w_t nicht normalverteilt ist (→Quasi-Maximum-Likelihood). * Alternative Verteilungsannahme: t-Verteilung

Answer 28

* Die Volatilitätsprognosen konvergieren zur unbedingten Varianz σ²für h → ∞. * Die Persistenz der Volatitätsschocks hängt von α + β ab.

Answer 29

* eine **vielfältige Sammlung** von hochdimensionalen Modellen für statistische Vorhersagen, * kombiniert mit "**Regularisierungs**"-Methoden für die Modellauswahl und die **Abschwächung der Überanpassung** sowie * effiziente Algorithmen für die Suche unter einer großen Anzahl potenzieller Modellspezifikationen.

Answer 30

* In **großen Datenmengen** generalisierbare Muster identifizieren * Bei “überwachten” (supervised) ML Methoden geht es um **Prognosen**: Prognostiziere y gegeben x. * Erfolgreiche ML Methoden schaffen es, komplexe und äußerst flexible funktionale Formen f (x) ohne Overfitting an die Daten anzupassen; * es werden **Funktionen gefunden, die out of sample gut funktionieren**. * **Externe Validität** steht im Vordergrund

Answer 31

* Wenn die **Flexibilität vom Modell ansteigt, steigt typischerweise ihre Varianz und der Bias nimmt ab**. * Deshalb spricht man bei der Auswahl des Grades an Flexibilität basierend auf dem durchschnittlichen Fehler in den Testdaten vom Bias-Varianz Tradeoff.

Answer 32

* In allen ML Methoden wird der Grad an Flexibilität/Komplexität durch Hyperparameter (oder auch ”**Tuningparameter**” genannt) gesteuert. * Die Wahl der Hyperparameter ist essenziell und entscheidet über den Erfog/Misserfolg eines Algorithmus! * Typischerweise werden Hyperparameter mittels Kreuzvalidierung (cross validation) bestimmt.

Answer 33

* Wir nutzen **Trainingsdaten** (in sample), um Schätzungen über die Genauigkeit der Prognosen in den **Testdaten** (out of sample) zu erhalten. 1. Splitten das verfügbare Datenset nach dem Zufallsprinzip in zwei Teile auf: ein Trainingsset und ein Validierungsset 2. Das Modell wird basierend auf den Trainingsdaten angepasst. 3. Das angepasste Modell wird verwendet, um auf dem Validierungsset zu prognostizieren. 4. Der resultierende Fehler im Validierungsset liefert eine Schätzung des Fehlers auf den Testdaten. * Für Zeitreihendaten ist Cross Validation komplizierter aufgrund der Abh ̈angigkeit der Daten.

Answer 34

* die geschätzten **Koeffizienten** werden im Vergleich zu OLS **gegen Null gedrückt** * Shrinkage **verringert die Varianz** und kann auch (unter bestimmten Voraussetzungen) zur **Variablenselektion** verwendet werden * Implementierungsvarianten: * LASSO * Ridge Regression * Elastic Net.

Answer 35

* Im Vergleich zu OLS sind die geschätzten Koeffizienten β^R die Werte, die **RSS + shrinkage penalty (L₂) minimieren**. * **Shrinkage Penalty → λ∑β_j**²ist klein, wenn die Betas nah an Null sind * Effekt: drückt die geschätzen Werte von Beta gegen Null * **Tuningparameter λ** dient dazu, die relative Auswirkung der beiden Terme auf die geschätzten Regressionskoeffizienten zu regeln. * Einen geeigneten Wert ist erfolgskritisch, dazu verwendet man Cross Validation.

Answer 36

* Die LASSO Koeffizienten, β^L, **minimieren RSS+shrinkage penalty (L₁)** * Bei LASSO werden durch den L₁ penalty **einige der Koeffizienten auf exakt 0 gedrückt**, sofern der Tuningparameter λ ausreichend groß ist. * Damit **führt LASSO Variablenselektion** durch.

Answer 37

* LASSO führt zu **sparse Modellen** − das heißt, zu Modellen, die **nur einen Teil der Variablen beinhalten** (die Koeffizienten der anderen Variablen werden auf exakt 0 gesetzt). * Ridge Regression führt zu **dense Modellen** − das heißt, zu Modellen, in denen die **Koeffizienten gegen 0 gedrückt werden**, aber nicht exakt auf 0. * Somit werden die Variablen nicht komplett aus dem Modell entfernt.

Answer 38

* Elastische Netze kombinieren Shrinkage und Variablenselektion * Die Idee elastischer Netze ist es, das ”Fischernetz so auszudehnen”, dass alle “großen Fische”, also die wichtigen Variablen, eingefangen werden.

Answer 39

* Baum-basierte Verfahren → nicht-linearen Methoden. * Baum-basierte Verfahren teilen den Prädiktorenraum in viele einfache Segmente ein. * Der Wert in jedem Endknoten ist einfach der Mittelwert, der in das jeweilige Segment passen

Answer 40

* Wir unterteilen den Prädiktorenraum in verschiedene und nicht-überlappende Regionen * Für jede Beobachtung, die in die Region fällt, ist die **Vorhersage identisch** und entspricht dem Mittelwert der vorhergesagten Variablen der Trainingsbeobachtungen in R_j. * Das Ziel besteht darin, die Rechtecke so zu bilden, dass die **Residuenquadratsume (RSS) minimiert wird** * Wir splitten nicht den ganzen Prädiktorenraum, sondern nur eine der beiden zuvor identifizierten Regionen. * Der Prozess wird solange fortgeführt, bis ein Stopkriterium erreicht wird * z.B, bis keine Region mehr als 5 Beobachtungen mehr enthält.

Answer 41

* Es ist unmöglich, jede mögliche Partitionierung des Prädiktorenraums in J Rechtecke durchzugehen. * Bekannt als rekursives binäres Splitting. * Der Ansatz ist **top-down**, weil er an der Spitze des Baumes beginnt und dann sukzessive Splits des Prädiktorenraumes durchführt; jeder Split wird durch zwei neue Äste, die nach unten fu ̈hren, angezeigt. * Der Ansatz ist **”greedy”**, weil der beste Split im Konstruktionsverfahren im jeweiligen Schritt gesucht wird (keine dyamische Optimierung).

Answer 42

* Das Anpassen großer kann zu Overfitting führen und damit zu schlechter Generalisierbarkeit auf neuen Daten. * Ein kleinerer Baum mit weniger Splits könnte zu niedrigerer Varianz und besserer Interpretierbarkeit führen, der Bias wird allerdings bei kleineren Bäumen tendenziell zunehmen. * Mögliche Strategie: den Baum nur weiter wachsen zu lassen, solange jeder Split zur Reduzierung der RSS über einem gewissen vorher festgelegten Schwellenwert liegt. * Diese Strategie ist allerdings zu kurzsichtig: ein scheinbar nutzloser Split relativ am Anfang kann später einen sehr erfolgreichen späteren Split nach sich ziehen. * **Cost Complexity Pruning**: einen sehr großen Baum T₀ wachsen zu lassen und anschließend nicht besonders sinnvolle Verzweigungen (im Sinne der Reduktion der Fehlermetrik) abzuschneiden (pruning), um einen subtree zu erhalten.

Answer 43

* Der Tuningparameter α regelt den Tradeoff zwichen der Komplexität des subtree und seiner Anpassung an die Trainingsdaten. * Wir ermitteln den Wert anhand Cross Validation.

Answer 44

* Klassifikationsbäume → prognostizierende Variable qualitativ statt quantitativ * Jede Beobachtung gehört zur der Klasse, die wir am häufigsten in der Region beobachten, zu der die Beobachtung gehört. * RSS kann bei Klassifikationsbäumen nicht als Fehlermetrik verwendet werden. * **Gini Index oder Maß für node purity** − geläufige Fehlermetrik * ein kleiner Wert weist darauf hin, dass der Knoten überwiegend Beobachtungen aus einer Klasse enthält.

Answer 45

Vorteil: * Baum-basierte Verfahren sind **einfach**, **erfassen nicht-lineare Beziehungen** zwischen den Prädiktoren und die Ergebnisse **lassen sich gut interpretieren**. Nachteil: * Nicht gut bei Prognosegenauigkeit * Besser: Bagging, Random Forests und Boosting * Kombination einer hohen Anzahl an Bäumen resultiert in erheblichen Verbesserungen hinsichtlich der Prognosegenauigkeit, allerdings werden die Ergebnisse schwieriger zu interpretieren.

Answer 46

* Verfahren zur Reduzierung der Varianz einer statistischen Lernmethode * besonders nützlich und beliebt im Kontext von Regressionsbäumen * Das Mitteln über ein Set an Beobachtungen reduziert die Varianz. * Durch das **Bootstrap** Verfahren kann man sich künstlich mehrere Trainingsdatensets generieren, indem man wiederholt und mit Zurücklegen aus einem (einzigen) Trainingsdatenset zieht. * In diesem Ansatz generieren wir B verschiedene ”bootstrapped” Trainingsdatensets. Man trainiert die Methode auf dem b-ten ”bootstrapped” Trainingsdatenset, um f^∗b(x) zu erhalten. Anschließend bildet man den Durchschnitt über alle B Prognosen

Answer 47

Für jede Beobachtung halten wir die von jedem der B Bäume prognostizierte Klasse fest, folgen dem **Mehrheitsbeschluss (majority vote)**: die Gesamtprognose ist die unter den B Vorhersagen am häufigsten vorkommende Klasse.

Answer 48

* Ein Schlüsselelement beim Bagging ist, wiederholt Bäume an bootstrapped Subsets der Beobachtungen anzupassen. * Ca. 2/3 der Beobachtungen → Anpassung eines einzelnen Baumes * restliche 1/3 der Beobachtungen→ **out-of-bag (OOB) Beobachtungen** * *Man kann y für die i-te Beobachtung prognostizieren, indem man alle Bäume nutzt, in denen die i-te Beobachtung OOB war.* * Dieses Vorgehen liefert ca. B/3 Vorhersagen für die i-te Beobachtung. * Der Durchschnittswert dieser Prognosen bildet die Gesamtprognose.

Answer 49

* Verfeinerung des Bagging Verfahrens * Ziel: Die Bäume zu de-korrelieren. * reduziert die Varianz, wenn man die Prognosen der einzelnen Bäume aggregiert. * Man erzeugt die Bäume auf Basis von bootstrapped Trainingsdatensets.

Answer 50

Bei jedem Split wird eine zufällige Auswahl von m Prädiktoren aus dem Set der kompletten p Prädiktoren erwogen.

Answer 51

* Effekt: für jeden Split steht eine neue Auswahl an Prädiktoren zur Auswahl. * Die Anzahl der Prädiktoren an jedem Split entspricht in etwa der Wurzel der Anzahl der gesamten Prädiktoren

Answer 52

* Boosting funktioniert ähnlich wie Random Forests, allerdings werden die Bäume hier sequentiell erzeugt, nicht unabhängig voneinander: * Jeder Baum wird basierend auf Informationen der vorher erzeugten Bäumeerstellt. * Der Boosting-Algorithmus macht es aus, langsam und schrittweise aus den Daten zu lernen. * Jeder der angepassten Bäume kann eher klein sein, mit nur wenigen Endknoten.

Answer 53

* **Anzahl der Bäume B**. Beim Boosting kann es zu Overfitting kommen, wenn B zu hoch ist. * Man nutzt Cross Validation, um B zu bestimmen. * **Shrinkage-Parameter λ**. Dieser Parameter regelt die Lerngeschwindigkeit. * Typische Werte sind 0.01 oder 0.001, und der optimale Wert ist problemabhängig. * Sehr kleine Werte können sehr hohe Werte von B erfordern, um gute Prognosen zu erzielen. * **Anzahl der Splits d** in jedem Baum, die die Tiefe der Bäume regelt. * Oft funktioniert d = 1 gut − in diesem Fall ist jeder Baum nur ein Baumstumpf mit einem einzigen Split, was in einem sogenannten ”additiven” Modell resultiert.

Answer 54

* Feed-Forward neuronale Netze: Struktur * Links: neuronales Netz ohne verborgene Schicht * Rechts: neuronales Netz mit einer verborgenen Schicht (hidden layer) * **Jedes Signal wird verstärkt oder gedämpft auf Basis eines Parametervektors** * Signalen gehen von den Prädiktoren aus * Die Parametervektoren sind multidimensional und erhalten pro Prädiktor: * einen Achsenabschnitt * einen Gewichtsparameter * Die Anzahl der Einheiten in der Eingabeschicht ist gleich der Dimension der Prädiktoren

Answer 55

* **Deep learning** wird mit einer **hohen Anzahl verborgener Schichten** assoziiert. * Komplexe Architekturen sind erfolgreich in Aufgaben wie Bildverarbeitung. * Neuronale Netze mit einer **geringen Anzahl an verborgenen Schichten** (**shallow networks**) schneiden in ökonomischen Anwendungen typischerweise besser ab als komplexere Architekturen. * Das liegt an der geringen Signal-to-Noise Ratio in ökonomischen Daten.

Answer 56

* Rectified linear unit (ReLU) * Sigmoide Aktivierungsfunktion

Answer 57

* bekannteste Dimensionsreduktionsmethode * Dabei werden **die Prädiktoren transformiert und ein lineares Regressionsmodell an die transformierten Variablen angepasst** * Dimensionsreduktionsverfahren restringieren die geschätzten β_jKoeffizienten, indem sie eine bestimmte Struktur annehmen müssen. ## Footnote **PCR ersetzt vielen korrelierte (originale) Prädiktoren mit einer geringeren Anzahl an Principal Components, die die gemeinsame Variation der ursprünglichen Prädiktoren erfassen.**

Answer 58

_1. Principal Component_ → Linearkombination der Variablen mit der größten Varianz. 2. Principal Component → größte Varianz, gegeben dass sie unkorreliert mit der ersten ist.

Answer 59

* Dimensionsreduktionsmethode, die **ein Set von Komponenten**, die Linearkombinationen der ursprünglichen Prädiktoren sind, **identifiziert und anschließend ein lineares Modell an die M neuen Komponenten anpasst.** * identifiziert die neuen Komponenten in überwachter Weise (**supervised**) * die zu prognostizierende Variable Y wird verwendet, um neue Komponenten zu identifizieren, die nicht nur die Struktur der ursprünglichen Prädiktoren geeignet zusammenfasst, sondern die zudem Y erklären können.