Theorie Flashcards
Zeitreihendaten
Zeitreihendaten werden für dasselbe Untersuchungsobjekt zu mehreren Zeitpunkten erhoben.
Autokorrelation
Korrelation einer Zeitreihe mit ihren eigenen verzögerten Werten

Erste Autokorrelation
- beschreiben die Gemeinseme Verteilung von
(Yt,Yt-1) in der Population

- h-te Autocovarianz
- h-te Autokorrelation
- h-te empirische Autokorrelation

Stationarität
- Die Wahrscheinlichkeitsverteilung einer Zeitreihe ändert sich über die Zeit nicht.
- Erfordert, dass sich Zukunft und Vergangenheit gleich verhalten.
- Muster (z.B. längere Auf- oder Abwärtsphasen) sind erlaubt, aber es darf keine systemastische Veränderung des Musters im Laufe der Zeit geben.
- Variabilität/Ausschläge sind über die Zeit konstant
Schwache Stationarität
(Bedingungen)
Kovarianzstationarität

Autoregression
Regressionsmodell, in dem Yt auf eigene Lags Yt-1, Yt-2,… regressiert wird.
AR(p)-Prozess
(mit und ohne Backshift-Operator)

AR(1)-Prozess
→ Die Autokorrelationen klingen exponentiell ab für h gegen unendlich.

Moving Average Prozess
(mit und ohne Backshift-Operator)
→ einfaches Zeitreihenmodell

MA(1)-Prozess

AR(1) als MA(∞)

ARMA(p,q) Prozess

Lag Polynome als Filter
- Wir können Lag Polynome als Filter interpretieren: Angewendet auf eine Zeitreihe, entsteht eine neue Zeitreihe.
- Transformation einer Zeitreihe mit zwei Lag Polynomen nacheinander ist gleichbedeutend mit der einmaligen Transformation einer Zeitreihe mit dem Lag Polynom, welches das Produkt der beiden ursprünglichen Lag Polynome darstellt.

Inverse eines Filters
- Inverse des Lag Polynoms
- Im Allgemeinen existiert die Inverse eines Polynoms φ(B) sofern bestimmte Bedingungen für die Parameter erfüllt sind.
- In diesem Fall ist φ(B) invertierbar.
- Existiert die Inverse von θ(B) also θ−1(B), lassen sich MA Prozesse als AR(∞) Prozesse formulieren.

Inverse eines Filters
(im AR(1)-Prozess)

Inverse eines Filters
(im MA(1)-Prozess)

Redundanz von Parametern
Ziel: die Dynamik einer Zeitreihe mit wenigste möglich Parametern zu modellieren
- ”Sparsamkeit” bei der Modellierung ist wichtig, um Schätzfehler zu minimieren und präzise Prognosen zu erreichen.
Invertierbarkeit von Lag Polynomen
- Modelle mit MA Komponente → MA Lag Polynom muss invertierbar sein.
- Modelle mit AR Komponente →AR Lag Polynom muss invertierbar sein
- nur genau dann ist der Prozess stationär

Überprüfung der Invertierbarkeit von Lag Polynomen
φ(z)=1−φ1z−φ2z2…−φpzp =0.
Überprüfung der Invertierbarkeit von Lag Polynomen
AR(1)
- φ(z) = 1− φ1z − φ2z2… − φpzp = 0
- Das AR Lag Polynom ist invertierbar, wenn die Wurzeln von φ(z) außerhalb des Einheitskreises liegen
- φ(z) = 0 für |z| > 1
- Falls |z| = 1 → Prozess nicht stationär
Stationäre Lösung AR(2) Prozess
- (1 − φ1B − φ2B2)Yt = c + wt
- Charakteristische Gleichung:
1 − φ1z − φ2z2 = 0 - Stationär, wenn:
- −1 < φ2 <1
- φ1 + φ2 <1
- φ2 − φ1 <1

Invertierbarkeit bei ARMA(p,q) Prozessen
- Ist das MA Lag Polynoms invertierbar, kann der Prozess als AR(∞) geschrieben werden und die Koeffizienten πj bestimmt werden

ARIMA(p,d,q) Prozess
- Integrationsgrad I(1) → einmaliges Differenzieren (d=1) reicht aus, um einen stationären Prozess zu erhalten
- Integrationsgrad I(2)→ d=2 wird benötigt, um einen stationären Prozess zu erhalten
- Stationär, wenn d=0
- Überdifferenzieren kann Abhängigkeiten induzieren, wo keine sind
Dickey Fuller (DF) Test

Augmented Dickey Fuller (ADF) Test
Allgemeiner und erlaubt mehr Lags (p>1)

Testspezifikationen
ADF-Test
Drei verschiedene Testspezifikationen sind zu unterscheiden:
- Ohne Konstante, ohne deterministischen Zeittrend:
- ∆Yt = δYt−1 +γ1∆Yt−1 +…+γp−1∆Yt−p+1 +wt
- ∆Yt = δYt−1 +γ1∆Yt−1 +…+γp−1∆Yt−p+1 +wt
- Mit Konstante, ohne deterministischen Zeittrend:
- ∆Yt =c+δYt−1+…+γp−1∆Yt−p+1+wt
- H1: Y ist stationär um eine Konstante
- Mit Konstante, mit deterministischen Zeittrend:
- ∆Yt =c+ζt+δYt−1+…+γp−1∆Yt−p+1+wt
- H1: Y ist trendstationär
Welches Schätzverfahren bei welchem Modell?
- Momentenmethode
- KQ Methode
- Maximum Likelihood Methode
- bei AR Modellen führen alle Modelle asymptotisch zur gleichen Verteilung (konsistent, asymptotisch normalverteilt).
- Sind MA Terme involviert:
- Momentenmethode nicht effizient
- höhere Schätzvarianz)
- Manchmal erhalten wir keine Lösung
- Momentenmethode nicht effizient
Momentenmethode bei AR Modellen
Cov (Yt,Yt−h) =
φ1Cov (Yt−1,Yt−h)+φ2Cov (Yt−2,Yt−h)+Cov (wt,Yt−h)
Yule-Walker Gleichungen bei einem AR(p) Prozess:
γh =φ1γh−1+…+φpγh−p
σ2 =γ0−φ1γ1−…−φpγh−p
Daraus können die Modellparameter φ1, φ2 und σ2 bestimmt werden
Momentenmethode bei MA Modellen
- nichtlinear in den Koeffizienten
- Das Verhältnis der Varianzen zwischen Momentenschätzer und Maximum Likelihood Schätzer in großen Stichproben z.B. θ = 0.5 ist ca. 3.5.

Modellidentifikation
AR(p), MA(q), ARMA(p,q)
anhand ACF und PACF

Partiellen Autokorrelationsfunktion
- X, Y und Z seien Zufallsvariablen.
- Die partielle Korrelation zwischen X und Y, gegeben Z, erhalten wir durch Regression von X auf Z (um Xˆ zu erhalten) und Regression von Y auf Z (um Yˆ zu erhalten)
Bayes Information Criterion
- Term: ↑p (# Lags) → bessere Anpassung an die Daten, ↓SSR
- Term ↑ mit ↑p (da Strafterm ist)
- Je kleiner BIC(p), desto besser

Akaike Information Criterion
- Der ”Strafterm” beim Akaike Kriterium ist geringer als beim Bayes Kriterium (2 < lnT) für T ≥ 8.
- AIC schätzt eine höhere Ordnung p als BIC.
- AIC überschätzt p, ist also keine konsistente Schätzfunktion

Fehlerdiagnosen
Ziel:
- Identifikation und statistische Erfassung von Fehlern
- weißes Rauschen (keine Stuktur oder Abhängigkeiten) für die Störterme → i.i.d. Annahme
- Weist die Fehlerdiagnose auf verbliebene Struktur in den Residuen hin, muss man den Prozess der Modellidentifikation neu beginnen
ARMAX Modelle
- nutzt eine oder mehrere exogene Variablen, Xi, um die Zeitreihe zu modellieren
- Xi müssen stationär sein
Saisonale ARIMA Modelle

Verhalten der ACF und PACF in reinen SARMA Prozessen

Der optimale Prädiktor (optimale Punktprognose)
- ŶT+h|T (die Vorhersage für YT+h zum Zeitpunkt T) ist eine Funktion der Informationsset
- Der beste Prädiktor ist die bedingte Erwartung von YT+h
- Kriterium: Minimierung des erwarteten quadrierten Vorhersagefehlers
Optimale Prädiktor
AR(1)
- Allgemein: yT+h|T= φhyT
- der letzte beobachtete Wert yT enthält alle benötigten Informationen, um den Prädiktor zu bestimmen.
- wenn h groß ist, konvergiert der Prädiktor gegen 0 (unbedingte Erwartung von yT)
Optimale Prädiktor
MA(1)
nicht informativ für Prognosen mit h>1→ auch an der ACF erkennbar, die nach einem Lag abreißt

Optimale Prädiktor
ARMA(p,q)

Genauigkeit der Prognosen
- Die Genauigkeit nimmt nicht weiter ab, wenn man beim MA(1) mehr als 2 Schritte in die Zukunft prognostiziert
- Unbedingte Varianz → obere Schranke für die Ungenauigkeit
- Langfristig klingt also der Informationsgehalt ab und der bedingte Prädiktor konvergiert zum unbedingten Präadiktor (also zum Mittelwert)

Evaluation von Prognosen
- Für (pseudo) out-of-sample Prognosen dürfen wir zur Modellspezifikation und Parameterschätzung nur Daten verwenden, die bis zu diesem Zeitpunkt verfügbar gewesen wären.
- Das Modell mit dem besten in-sample Fit oder dem niedrigsten AIC/BIC Kriterium muss keinesfalls auch out of sample am besten abschneiden!
Warum können in-sample Fit und out-of-sample Performance deutlich unterschiedlich sein?
- Schätzfehler der Parameter in endlichen Stichproben (selbst wenn die Modellspezifikation stimmt).
- Modellunsicherheit (Modellspezifikation stimmt nicht).
- Datengenerierender Prozess ändert sich über die Zeit (z.B. aufgrund von Strukturbrüchen oder graduellen Veränderungen).
Qualitätskriterium von Prognosen
Für unverzerrte Prognosen erwarten wir β2 = 1 und β1 = 0.

Verlustfunktion/Kostenfunktion
- Funktion, die den Verlust/die Kosten des Handelns basierend auf falschen Prognosen quantifiziert.
- L(eT+h) ≥ 0 nimmt an, dass der Verlust nicht von yT+h und auch nicht von der Periode selbst abhängt.
- Oft: symmetrische quadratische Verlustfunktion
L(eT+h) = eT+h 2 - Asymmetrische Verlustfunktionen sind auch denkbar
- z.B. wenn Überschätzung zu gravierenderen Konsequenzen führt als Unterschätzung und umgekehrt.
Diebold-Mariano Test
Die durchschnittliche Differenz in den Verlustfunktionen der beiden Prognosen vergleichen, um 2 oder mehr Prognosenmodelle zu vergleichen.
- d muss als Voraussetzung für den Test auf (schwache)
Stationarität überprüft werden - H0: d=0 → gleiche Prognosegenauigkeit
- d>0, wenn Modell 2 besser aös 1 prognostiziert

Volatilitätscluster
gilt besonders für hohe Beobachtungsfrequenzen, zum Beispiel täglich oder wöchentlich
ARCH-Modellen
Konzept der autoregressiven bedingten Heteroskedastizität vor (AutoRegressive Conditional Heteroskedasticity)
- Die bedingte Varianz des Störterms zum Zeitpunkt t hängt von den quadrierten Störtermen vergangener Perioden ab.

ARCH(1)
- Damit σt2 ≥ 0, muss ω ≥ 0 und α ≥ 0.
- Auf einen (betragsmäßig) großen Schock in Periode t − 1 folgt tendenziell ein (betragsmäßig) hohes εt.
- Die ARCH(1) Spezifikation impliziert nicht, dass der Prozess für εt nicht-stationär ist.
- Sie impliziert, dass die quadrierten Werte ε2t und ε2t−1 korreliert sind.

ARCH(p)

Breusch-Pagan Test
Damit stellt man (formal) fest, ob die Störterme bedingt heteroskedastisch sind
- Nullhypothese: Homoskedastizität (α1 = … = αp = 0)
- Hilfsregression der quadrierten Residuen auf verzögerte quadrierte Residuen und eine Konstante.
- Teststatistik: T ·R2
- Unter H0 :T·R2 ∼ χ2(p)
- Der Test ist nur gültig, wenn die Fehler nicht autokorreliert sind
- (also Autokorrelation zuerst prüfen).
- Der Test ist nur gültig, wenn die Fehler nicht autokorreliert sind
GARCH Modelle

GARCH(1,1)
- Stationarität erfordert, dass α + β < 1.
- Falls α + β nur knapp unter 1 ist, impliziert dies, dass die Persistenz in der Volatilität hoch ist.
- Falls α + β = 1, erhalten wir das sogenannte IGARCH Modell, in dem Volatilitätsschock einen permanenten Effekt haben.
- I: Integrated
- I: Integrated
- Das GARCH(1, 1) Modell kann auch als ARCH(∞) Prozess ausgedrückt werden.
- Da das GARCH(p, q) als ARMA(p, q) für ε2t interpretiert werden kann, kann man die (P)ACF für die quadrierten Residuen anwenden.

Leverage-Effekt
Asymmetrische Verhalten, in denen gute und schlechte Nachrichten einen unterschiedlichen Effekt auf die zukünftige Volatilität haben.
TGARCH-Modell
Threshold GARCH (TGARCH)
σt2 =ω+αεt-12 +βσt-12 +ηIt-1εt-12
wobei It−1 = 1, falls εt−1 < 0, und sonst 0 ist.
Falls η > 0, haben negative Schocks eine höhere Auswirkung auf die zukünftige Volatilität als positive Schocks gleichen Ausmaßes.
GARCH: Modellschätzung
- Maximum Likelihood Methode
- Die Parameter θ, ω, α, β werden so gewählt, dass die (Log)-Likelihood maximiert wird.
- Falls wt nicht normalverteilt ist, kann Maximum Likelihood auch bei inkorrekter Normalverteilungsannahme konsistente Schätzwerte liefern.
- Die Bedingungen erster Ordnung bei Maximum Likelihood sind auch gültig , wenn wt nicht normalverteilt ist (→Quasi-Maximum-Likelihood).
- Alternative Verteilungsannahme: t-Verteilung
GARCH: Prognosen
- Die Volatilitätsprognosen konvergieren zur unbedingten Varianz σ2 für h → ∞.
- Die Persistenz der Volatitätsschocks hängt von α + β ab.
ML Methoden
- eine vielfältige Sammlung von hochdimensionalen Modellen für statistische Vorhersagen,
- kombiniert mit “Regularisierungs“-Methoden für die Modellauswahl und die Abschwächung der Überanpassung sowie
- effiziente Algorithmen für die Suche unter einer großen Anzahl potenzieller Modellspezifikationen.
In welchen Bereichen sind ML Methoden stark?
- In großen Datenmengen generalisierbare Muster identifizieren
- Bei “überwachten” (supervised) ML Methoden geht es um Prognosen: Prognostiziere y gegeben x.
- Erfolgreiche ML Methoden schaffen es, komplexe und äußerst flexible funktionale Formen f (x) ohne Overfitting an die Daten anzupassen;
- es werden Funktionen gefunden, die out of sample gut funktionieren.
- Externe Validität steht im Vordergrund
Bias-Varianz Tradeoff
- Wenn die Flexibilität vom Modell ansteigt, steigt typischerweise ihre Varianz und der Bias nimmt ab.
- Deshalb spricht man bei der Auswahl des Grades an Flexibilität basierend auf dem durchschnittlichen Fehler in den Testdaten vom Bias-Varianz Tradeoff.
Tuningparameter
- In allen ML Methoden wird der Grad an Flexibilität/Komplexität durch Hyperparameter (oder auch ”Tuningparameter” genannt) gesteuert.
- Die Wahl der Hyperparameter ist essenziell und entscheidet über den Erfog/Misserfolg eines Algorithmus!
- Typischerweise werden Hyperparameter mittels Kreuzvalidierung (cross validation) bestimmt.
Cross Validation (CV)
- Wir nutzen Trainingsdaten (in sample), um Schätzungen über die Genauigkeit der Prognosen in den Testdaten (out of sample) zu erhalten.
- Splitten das verfügbare Datenset nach dem Zufallsprinzip in zwei Teile auf: ein Trainingsset und ein Validierungsset
- Das Modell wird basierend auf den Trainingsdaten angepasst.
- Das angepasste Modell wird verwendet, um auf dem Validierungsset zu prognostizieren.
- Der resultierende Fehler im Validierungsset liefert eine Schätzung des Fehlers auf den Testdaten.
- Für Zeitreihendaten ist Cross Validation komplizierter aufgrund der Abh ̈angigkeit der Daten.
Shrinkage-Schätzer
(Regularisierung oder penalized regressions)
- die geschätzten Koeffizienten werden im Vergleich zu OLS gegen Null gedrückt
- Shrinkage verringert die Varianz und kann auch (unter bestimmten Voraussetzungen) zur Variablenselektion verwendet werden
- Implementierungsvarianten:
- LASSO
- Ridge Regression
- Elastic Net.
Ridge Regression
- Im Vergleich zu OLS sind die geschätzten Koeffizienten βR die Werte, die RSS + shrinkage penalty (L2) minimieren.
-
Shrinkage Penalty → λ∑βj<strong>2</strong> ist klein, wenn die Betas nah an Null sind
- Effekt: drückt die geschätzen Werte von Beta gegen Null
-
Tuningparameter λ dient dazu, die relative Auswirkung der beiden Terme auf die geschätzten Regressionskoeffizienten zu regeln.
- Einen geeigneten Wert ist erfolgskritisch, dazu verwendet man Cross Validation.

LASSO
- Die LASSO Koeffizienten, βL, minimieren RSS+shrinkage penalty (L1)
- Bei LASSO werden durch den L1 penalty einige der Koeffizienten auf exakt 0 gedrückt, sofern der Tuningparameter λ ausreichend groß ist.
- Damit führt LASSO Variablenselektion durch.

Ridge Regression vs. LASSO
- LASSO führt zu sparse Modellen − das heißt, zu Modellen, die nur einen Teil der Variablen beinhalten (die Koeffizienten der anderen Variablen werden auf exakt 0 gesetzt).
- Ridge Regression führt zu dense Modellen − das heißt, zu Modellen, in denen die Koeffizienten gegen 0 gedrückt werden, aber nicht exakt auf 0.
- Somit werden die Variablen nicht komplett aus dem Modell entfernt.

Elastische Netze
- Elastische Netze kombinieren Shrinkage und Variablenselektion
- Die Idee elastischer Netze ist es, das ”Fischernetz so auszudehnen”, dass alle “großen Fische”, also die wichtigen Variablen, eingefangen werden.

Baum-basierte Verfahren
- Baum-basierte Verfahren → nicht-linearen Methoden.
- Baum-basierte Verfahren teilen den Prädiktorenraum in viele einfache Segmente ein.
- Der Wert in jedem Endknoten ist einfach der Mittelwert, der in das jeweilige Segment passen
Baum-basierte Verfahren
(Konstruktion)
- Wir unterteilen den Prädiktorenraum in verschiedene und nicht-überlappende Regionen
- Für jede Beobachtung, die in die Region fällt, ist die Vorhersage identisch und entspricht dem Mittelwert der vorhergesagten Variablen der Trainingsbeobachtungen in Rj .
- Das Ziel besteht darin, die Rechtecke so zu bilden, dass die Residuenquadratsume (RSS) minimiert wird
- Wir splitten nicht den ganzen Prädiktorenraum, sondern nur eine der beiden zuvor identifizierten Regionen.
- Der Prozess wird solange fortgeführt, bis ein Stopkriterium erreicht wird
- z.B, bis keine Region mehr als 5 Beobachtungen mehr enthält.
Baum-basierte Verfahren
(top-down, ”greedy” Ansatz)
- Es ist unmöglich, jede mögliche Partitionierung des Prädiktorenraums in J Rechtecke durchzugehen.
- Bekannt als rekursives binäres Splitting.
- Der Ansatz ist top-down, weil er an der Spitze des Baumes beginnt und dann sukzessive Splits des Prädiktorenraumes durchführt; jeder Split wird durch zwei neue Äste, die nach unten fu ̈hren, angezeigt.
- Der Ansatz ist ”greedy”, weil der beste Split im Konstruktionsverfahren im jeweiligen Schritt gesucht wird (keine dyamische Optimierung).
Pruning von Bäumen
- Das Anpassen großer kann zu Overfitting führen und damit zu schlechter Generalisierbarkeit auf neuen Daten.
- Ein kleinerer Baum mit weniger Splits könnte zu niedrigerer Varianz und besserer Interpretierbarkeit führen, der Bias wird allerdings bei kleineren Bäumen tendenziell zunehmen.
- Mögliche Strategie: den Baum nur weiter wachsen zu lassen, solange jeder Split zur Reduzierung der RSS über einem gewissen vorher festgelegten Schwellenwert liegt.
- Diese Strategie ist allerdings zu kurzsichtig: ein scheinbar nutzloser Split relativ am Anfang kann später einen sehr erfolgreichen späteren Split nach sich ziehen.
- Cost Complexity Pruning: einen sehr großen Baum T0 wachsen zu lassen und anschließend nicht besonders sinnvolle Verzweigungen (im Sinne der Reduktion der Fehlermetrik) abzuschneiden (pruning), um einen subtree zu erhalten.
Wie findet man den besten subtree?
- Der Tuningparameter α regelt den Tradeoff zwichen der Komplexität des subtree und seiner Anpassung an die Trainingsdaten.
- Wir ermitteln den Wert anhand Cross Validation.
Klassifikationsbäume
- Klassifikationsbäume → prognostizierende Variable qualitativ statt quantitativ
- Jede Beobachtung gehört zur der Klasse, die wir am häufigsten in der Region beobachten, zu der die Beobachtung gehört.
- RSS kann bei Klassifikationsbäumen nicht als Fehlermetrik verwendet werden.
-
Gini Index oder Maß für node purity − geläufige Fehlermetrik
- ein kleiner Wert weist darauf hin, dass der Knoten überwiegend Beobachtungen aus einer Klasse enthält.
Vor- und Nachteile baumbasierter Verfahren
Vorteil:
- Baum-basierte Verfahren sind einfach, erfassen nicht-lineare Beziehungen zwischen den Prädiktoren und die Ergebnisse lassen sich gut interpretieren.
Nachteil:
- Nicht gut bei Prognosegenauigkeit
- Besser: Bagging, Random Forests und Boosting
- Kombination einer hohen Anzahl an Bäumen resultiert in erheblichen Verbesserungen hinsichtlich der Prognosegenauigkeit, allerdings werden die Ergebnisse schwieriger zu interpretieren.
Bootstrap aggregation oder Bagging
- Verfahren zur Reduzierung der Varianz einer statistischen Lernmethode
- besonders nützlich und beliebt im Kontext von Regressionsbäumen
- Das Mitteln über ein Set an Beobachtungen reduziert die Varianz.
- Durch das Bootstrap Verfahren kann man sich künstlich mehrere Trainingsdatensets generieren, indem man wiederholt und mit Zurücklegen aus einem (einzigen) Trainingsdatenset zieht.
- In diesem Ansatz generieren wir B verschiedene ”bootstrapped” Trainingsdatensets.
Man trainiert die Methode auf dem b-ten ”bootstrapped” Trainingsdatenset, um f∗b(x) zu erhalten. Anschließend bildet man den Durchschnitt über alle B Prognosen

Bagging bei Klassifikationsbäumen
Für jede Beobachtung halten wir die von jedem der B Bäume prognostizierte Klasse fest, folgen dem Mehrheitsbeschluss (majority vote): die Gesamtprognose ist die unter den B Vorhersagen am häufigsten vorkommende Klasse.
Out-of-bag (OOB) Fehlerschätzung
- Ein Schlüsselelement beim Bagging ist, wiederholt Bäume an bootstrapped Subsets der Beobachtungen anzupassen.
- Ca. 2/3 der Beobachtungen → Anpassung eines einzelnen Baumes
- restliche 1/3 der Beobachtungen→ out-of-bag (OOB) Beobachtungen
- Man kann y für die i-te Beobachtung prognostizieren, indem man alle Bäume nutzt, in denen die i-te Beobachtung OOB war.
- Dieses Vorgehen liefert ca. B/3 Vorhersagen für die i-te Beobachtung.
- Der Durchschnittswert dieser Prognosen bildet die Gesamtprognose.
Random Forests
- Verfeinerung des Bagging Verfahrens
- Ziel: Die Bäume zu de-korrelieren.
- reduziert die Varianz, wenn man die Prognosen der einzelnen Bäume aggregiert.
- Man erzeugt die Bäume auf Basis von bootstrapped Trainingsdatensets.
Unterschied zwischen Random Forests und Bagging
Bei jedem Split wird eine zufällige Auswahl von m Prädiktoren aus dem Set der kompletten p Prädiktoren erwogen.
Effekt von Random Forests
- Effekt: für jeden Split steht eine neue Auswahl an Prädiktoren zur Auswahl.
- Die Anzahl der Prädiktoren an jedem Split entspricht in etwa der Wurzel der Anzahl der gesamten Prädiktoren
Boosting
- Boosting funktioniert ähnlich wie Random Forests, allerdings werden die Bäume hier sequentiell erzeugt, nicht unabhängig voneinander:
- Jeder Baum wird basierend auf Informationen der vorher erzeugten Bäumeerstellt.
- Der Boosting-Algorithmus macht es aus, langsam und schrittweise aus den Daten zu lernen.
- Jeder der angepassten Bäume kann eher klein sein, mit nur wenigen Endknoten.
Tuningparameter beim Boosting
-
Anzahl der Bäume B. Beim Boosting kann es zu Overfitting kommen, wenn B zu hoch ist.
- Man nutzt Cross Validation, um B zu bestimmen.
-
Shrinkage-Parameter λ. Dieser Parameter regelt die Lerngeschwindigkeit.
- Typische Werte sind 0.01 oder 0.001, und der optimale Wert ist problemabhängig.
- Sehr kleine Werte können sehr hohe Werte von B erfordern, um gute Prognosen zu erzielen.
-
Anzahl der Splits d in jedem Baum, die die Tiefe der Bäume regelt.
- Oft funktioniert d = 1 gut − in diesem Fall ist jeder Baum nur ein Baumstumpf mit einem einzigen Split, was in einem sogenannten ”additiven” Modell resultiert.
Neuronale Netze
- Feed-Forward neuronale Netze: Struktur
- Links: neuronales Netz ohne verborgene Schicht
- Rechts: neuronales Netz mit einer verborgenen Schicht (hidden layer)
-
Jedes Signal wird verstärkt oder gedämpft auf Basis eines Parametervektors
- Signalen gehen von den Prädiktoren aus
- Die Parametervektoren sind multidimensional und erhalten pro Prädiktor:
- einen Achsenabschnitt
- einen Gewichtsparameter
- Die Anzahl der Einheiten in der Eingabeschicht ist gleich der Dimension der Prädiktoren

Neuronale Netze
Deep Learning & Shallow Networks
-
Deep learning wird mit einer hohen Anzahl verborgener Schichten assoziiert.
- Komplexe Architekturen sind erfolgreich in Aufgaben wie Bildverarbeitung.
- Neuronale Netze mit einer geringen Anzahl an verborgenen Schichten (shallow networks) schneiden in ökonomischen Anwendungen typischerweise besser ab als komplexere Architekturen.
- Das liegt an der geringen Signal-to-Noise Ratio in ökonomischen Daten.
Neuronale Netze
nichtlineare Aktivierungsfunktionen
- Rectified linear unit (ReLU)
- Sigmoide Aktivierungsfunktion

Principal Component Regressions (PCR)
- bekannteste Dimensionsreduktionsmethode
- Dabei werden die Prädiktoren transformiert und ein lineares Regressionsmodell an die transformierten Variablen angepasst
- Dimensionsreduktionsverfahren restringieren die geschätzten βj Koeffizienten, indem sie eine bestimmte Struktur annehmen müssen.
PCR ersetzt vielen korrelierte (originale) Prädiktoren mit einer geringeren Anzahl an Principal Components, die die gemeinsame Variation der ursprünglichen Prädiktoren erfassen.
PCR Komponente
1. Principal Component → Linearkombination der Variablen mit der größten Varianz.
- Principal Component → größte Varianz, gegeben dass sie unkorreliert mit der ersten ist.
Partial Least Squares (PLS)
- Dimensionsreduktionsmethode, die ein Set von Komponenten, die Linearkombinationen der ursprünglichen Prädiktoren sind, identifiziert und anschließend ein lineares Modell an die M neuen Komponenten anpasst.
- identifiziert die neuen Komponenten in überwachter Weise (supervised)
- die zu prognostizierende Variable Y wird verwendet, um neue Komponenten zu identifizieren, die nicht nur die Struktur der ursprünglichen Prädiktoren geeignet zusammenfasst, sondern die zudem Y erklären können.