6. Overfitting Flashcards
Definition Overfitting vs Generalisierung
Überanpassung und Generalisierung sind fundamentale Konzepte
> genug flexible Suche nach Mustern wird Muster finden
> Overfitting = gefundenen Muster sind nur rein zufällig in den Daten vorhanden
> Suche nach Mustern die sich verallgemeinern/generalisieren lassen
Definition Generalisierung
Generalisierung = Anwendbarkeit des Modells auf Daten, die nicht zur Erstellung verwendet wurden
Beispiel:
Daten zur Kundenabwanderung
- Historische Daten von abgewanderten Kunden und treuen Kunden innerhalb von sechs Monaten nach Vertragslaufzeit
Aufgaeb: Erstellung Modell zur Vorhersage der Kunden die wahrscheinlich abwandern
Bau eines perfekten Modells
- Speicherung des Merkmalvektoren aller abgewanderten Kunden
- Suchen des Kunden bei der Vorhersage
Tabellenmodell speichert Trainingsdaten
> hier keine Geneeralisierung
> unbrauchbar in Praxis
Overfitting/ Überanpassung
Tendenz von Dm-Verfahren?!
Tendenz von DM Verfahren Modell auf Daten maßzuschneidern
> Darunter leidet Generalisierung auf unbekannte Daten
> Alle DM Verfahren tendieren zum Überanpassen
> Zielkonflikt zwischen Modellkomplexität und Überanpassung
- Überanpassung erkennen
- Komplexität prinzipientreu handhaben
Überanpassung erkennen Bewertung der Generalisierung
Vorgehen mit Holdout-Date beschreiben
Bewertung der Generalisierung eines Modells kann nicht anhand Trainingsdaten erfolgen
> Holdout-Data = Zurückbehalten eines Teils der Daten
- Zielvariable muss für diese bekannt sein
- Wurden nicht zur Erstellung des Modells verwendet
> Test des Modells mit Holdout-Data
= Labortest der Verallgemeinerungsfähigkeit)
- Vorhersagen der Zielvariable der Holdout-Data durch das Modell
- Vergleich der Vorhersage mit dem tatsächlichem Wert der Zielvariable
Was zeigt die Fitfunktion?
= zeigt die Exaktheit eines Modells als Funktion der Komplexität
- je komplexer ein Modell ist je exakter arbeitet es
- bei komplexeren Modellen steigt die Gefahr der Überanpassung
Korrektklassifizierungsrate mit Holdout-Data != Korrektklassifizierungsrate mit Trainingsdaten
3 Punkte der Fitfunktion im Umgang mit Entscheidungsbäumen
> Verfahren, das bei reinen Blättern stoppt, neigt zu Überanpassung
Bäume besitzen hierzu enorme Größe
Komplexität des Baum = Anzahl seiner Knoten
Überanpassung bei mathematischen Funktionen
Durch was wird die Komplexität bestimmt
Bestimmt durch:
> Anzahl der Variablen (Merkmale)
> Anzahl nichtlinearer Attribute
Mit höhere Dimension kann Funktion immer perfekter an größere Punktmengen angepasst werden
=> Manuelles Streichen von Merkmalen um Überanpassung zu vermeiden (Man. Selektion)
Warum nimmt die Leistung des Modells durch Überanpassung ab?
> Erfassung fehlerhafter Korrelationen durch Modell verschlechtern die Modell-Leistung
- Fehlerhafte Korrelationen werden schädlich, wenn sie falsche Generalisierungen an Modell liefern
zu stark an bestehende Daten angepasst “Overfitted” somit nur schwer einsetzbar bei späterer Generalisierung
Was ist Kreuzvalidierung?
= Ausgefeilte Trainings- und Testprozedur
> Abschätzung der Zuverlässigkeit des Leistungstests
> Ermittlung von Statistiken über die Verallgemeinerungsfähigkeit
> Bessere Ausnutzung der Trainingsdaten
Man unterteilt Datenmenge und testet mit unterschiedlichen Modellen, bei denen man die sogenannten Hold-Out Daten als unterschiedliche Testergebnisse betractet.
Gesamtfehlerquote errechnet sich als Durchschnitt aus den Einzelfehlerquoten der k Teilmengen.
(Damit ergibt sich der mittlere quadratische fehler)
=> Beste Modell wird gewählt
Wo kann man eine Kreuzvalidierung durchführen?
Bestimmung der Verlässlichkeit der Modelle für die Abwanderungsrate
> Entscheidungsbaum
> Logistische Regression
> Lineare Regression
Lernkurven (Trainingsinstanzen)
> Grüße der Trainingsdatenmenge beeinflusst Verallgemeinerungsfähigkeit des Modells
> Abbildung des Zusammenhangs durch Lernkurve
> umso mehr Trainingsinstanzen, desto besser die Verallgemeinerungsfähigkeit
Stutzen eines Entscheidungsbaums
Solange bis…?
Zusammenführen von Zweigen und Blättern zu einem Blatt
Überlegung: Wird Korrektklassifizierungsrate durch Stuzen verringert?
Definition Korrektklassifizierungsrate
= gibt den Anteil aller Objekte an, die korrekt klassifiziert werden. Restliche Teil entspricht der Falschklassifikationsrate
Allgemein Methode/Vorgehen zur Vermeidung von Überanpassung
> Vergleich von Modellen mit unterschiedlicher Komplexität durch Test der Verallgemeinerungsfähigkeit
- Testdaten dürfen keinesfalls in Modellbildung einbezogen worden sein
Verschachtelte Kreuzvalidierung
- Durchführung einer äußeren (normalen) Kreuzvalidierung zur Modellevaluation
Vermeidung von Überanpassung durch
Sequential Forward Selection (SFS)
&
Sequential Backward Eleminaton (SBE)
SFS
> Erstellen von Modellen anhand eines Merkmals und Auswahl des besten Modells
> erstellen von Modellen, die dem ersten Merkmal ein weiteres Merkmal hinzufügen
> Vergleich der Modelle und Auswahl des besten Merkmals
> Wiederholung Verfahren bis Korrektklassifizerungsrate durch neu hinzugefügtes Merkmal nicht mehr ansteigt
SBE
> Wegnehmen von Merkmalen solange Korrektklassifizierungsrate nicht abnimmt
Was ist das Problem bei mehrfachen Vergleichen?
Durchführung mehrfacer Vergleiche und Auswahl bestes Ergebnis
> statistische Signifikanz der Aussage fraglich
> Problem der Überanpassung werden meist durch merhface Vergleiche verursacht
> Auch Verfahren zur vermeidung von Überanpassung stellen mehrfache Vergleiche an