Vorlesung 2 Flashcards
Beschreib kurz die Polynomiale Regression
Beschreib mathematisch die lineare Methode der kleinsten Fehlerquadrate für die Polynomiale Regression
Was erhalten wir dann bei der Polynomialen Regression?
Wie kann man den Abbildungstrick, den wir bei der Polynomialen Regression verwendet haben für beliebige Basisfunktionen verwenden?
Was ist Underfitting?
Was ist Overfitting?
Beschreib den Zusammenhang von Vorhersagefehler und Modellkomplexität für Trainings- und Testdaten
In was werden Trainingsdaten aufgeteilt, um Overfitting zu erkennen?
In Trainings- und Validierungsdaten
Was tun, wenn man wenige Daten hat, aber Validierungsdaten braucht?
Kreuzvalidierung
Wie funktioniert die Kreuzvalidierung?
Wie geht man allgemein vor bei der Regression?
unmathematisch
- beste Modellkomplexität finden: Kreuzvalidierung und Beste Modellkomplexität mit minimalem Validierungsfehler auswählen
- Mit dieser Modellkomplexität das Training auf allen Trainingsdaten (Trainings- und Validierungsdaten) durchführen, um die besten Parameter w* zu erhalten
Was ist Regularisierung/Regularisierte Risikominimierung?
Eine Beschränkung der Modellparameter w zur Reduzierung der Modellkomplexität, zur Reduzierung des Overfittings
Was sind Regularisierungspfade?
Was ist die Empirische Risikominimierung (ERM)?
Was ist die Regularisierte Risikominimierung (RRM)?
Was ist der bias-variance tradeoff?
- Modelle mit hoher Varianz können Trainingsdaten beliebig gut erfassen, neigen jedoch zum Overfitting (hohe Modellkomplexität)
- Modelle mit hoher Verzerrung (Bias) haben eine geringe Modellkomplexität, können sich jedoch an die Daten nicht genau anpassen (Underfitting)
Was sind Herausforderungen bei der leave-one-out cross-validation?
- hohen Rechenleistung, die für große Datensätze erforderlich ist
- Anfälligkeit für Overfitting
Was sind Herausforderungen bei der stratified cross-validation?
es kann schwierig sein, eine angemessene Stratifizierung für seltene Features oder Gruppen sicherzustellen, was zu verzerrten Ergebnissen führen kann
In der Praxis wird bei polynomialer Regression selten mit Polynomen über einem Grad von 3 gearbeitet, also meistens linear, Grad 2 oder 3. Welche möglichen Gründe könnte das haben?
- Rechenaufwand
- Overfitting, erhöhte Modellkomplexität