6. Overfitting Flashcards

1
Q

Definition Overfitting vs Generalisierung

A

Überanpassung und Generalisierung sind fundamentale Konzepte
> genug flexible Suche nach Mustern wird Muster finden
> Overfitting = gefundenen Muster sind nur rein zufällig in den Daten vorhanden
> Suche nach Mustern die sich verallgemeinern/generalisieren lassen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Definition Generalisierung

A

Generalisierung = Anwendbarkeit des Modells auf Daten, die nicht zur Erstellung verwendet wurden

Beispiel:
Daten zur Kundenabwanderung
- Historische Daten von abgewanderten Kunden und treuen Kunden innerhalb von sechs Monaten nach Vertragslaufzeit
Aufgaeb: Erstellung Modell zur Vorhersage der Kunden die wahrscheinlich abwandern

Bau eines perfekten Modells

  • Speicherung des Merkmalvektoren aller abgewanderten Kunden
  • Suchen des Kunden bei der Vorhersage

Tabellenmodell speichert Trainingsdaten
> hier keine Geneeralisierung
> unbrauchbar in Praxis

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Overfitting/ Überanpassung

Tendenz von Dm-Verfahren?!

A

Tendenz von DM Verfahren Modell auf Daten maßzuschneidern
> Darunter leidet Generalisierung auf unbekannte Daten
> Alle DM Verfahren tendieren zum Überanpassen
> Zielkonflikt zwischen Modellkomplexität und Überanpassung
- Überanpassung erkennen
- Komplexität prinzipientreu handhaben

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Überanpassung erkennen Bewertung der Generalisierung

Vorgehen mit Holdout-Date beschreiben

A

Bewertung der Generalisierung eines Modells kann nicht anhand Trainingsdaten erfolgen

> Holdout-Data = Zurückbehalten eines Teils der Daten

  • Zielvariable muss für diese bekannt sein
  • Wurden nicht zur Erstellung des Modells verwendet

> Test des Modells mit Holdout-Data
= Labortest der Verallgemeinerungsfähigkeit)
- Vorhersagen der Zielvariable der Holdout-Data durch das Modell
- Vergleich der Vorhersage mit dem tatsächlichem Wert der Zielvariable

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was zeigt die Fitfunktion?

A

= zeigt die Exaktheit eines Modells als Funktion der Komplexität

  • je komplexer ein Modell ist je exakter arbeitet es
  • bei komplexeren Modellen steigt die Gefahr der Überanpassung

Korrektklassifizierungsrate mit Holdout-Data != Korrektklassifizierungsrate mit Trainingsdaten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

3 Punkte der Fitfunktion im Umgang mit Entscheidungsbäumen

A

> Verfahren, das bei reinen Blättern stoppt, neigt zu Überanpassung
Bäume besitzen hierzu enorme Größe
Komplexität des Baum = Anzahl seiner Knoten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Überanpassung bei mathematischen Funktionen

Durch was wird die Komplexität bestimmt

A

Bestimmt durch:
> Anzahl der Variablen (Merkmale)
> Anzahl nichtlinearer Attribute

Mit höhere Dimension kann Funktion immer perfekter an größere Punktmengen angepasst werden
=> Manuelles Streichen von Merkmalen um Überanpassung zu vermeiden (Man. Selektion)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Warum nimmt die Leistung des Modells durch Überanpassung ab?

A

> Erfassung fehlerhafter Korrelationen durch Modell verschlechtern die Modell-Leistung
- Fehlerhafte Korrelationen werden schädlich, wenn sie falsche Generalisierungen an Modell liefern
zu stark an bestehende Daten angepasst “Overfitted” somit nur schwer einsetzbar bei späterer Generalisierung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist Kreuzvalidierung?

A

= Ausgefeilte Trainings- und Testprozedur
> Abschätzung der Zuverlässigkeit des Leistungstests
> Ermittlung von Statistiken über die Verallgemeinerungsfähigkeit
> Bessere Ausnutzung der Trainingsdaten

Man unterteilt Datenmenge und testet mit unterschiedlichen Modellen, bei denen man die sogenannten Hold-Out Daten als unterschiedliche Testergebnisse betractet.
Gesamtfehlerquote errechnet sich als Durchschnitt aus den Einzelfehlerquoten der k Teilmengen.

(Damit ergibt sich der mittlere quadratische fehler)
=> Beste Modell wird gewählt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wo kann man eine Kreuzvalidierung durchführen?

A

Bestimmung der Verlässlichkeit der Modelle für die Abwanderungsrate
> Entscheidungsbaum
> Logistische Regression
> Lineare Regression

Lernkurven (Trainingsinstanzen)
> Grüße der Trainingsdatenmenge beeinflusst Verallgemeinerungsfähigkeit des Modells
> Abbildung des Zusammenhangs durch Lernkurve
> umso mehr Trainingsinstanzen, desto besser die Verallgemeinerungsfähigkeit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Stutzen eines Entscheidungsbaums

Solange bis…?

A

Zusammenführen von Zweigen und Blättern zu einem Blatt

Überlegung: Wird Korrektklassifizierungsrate durch Stuzen verringert?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Definition Korrektklassifizierungsrate

A

= gibt den Anteil aller Objekte an, die korrekt klassifiziert werden. Restliche Teil entspricht der Falschklassifikationsrate

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Allgemein Methode/Vorgehen zur Vermeidung von Überanpassung

A

> Vergleich von Modellen mit unterschiedlicher Komplexität durch Test der Verallgemeinerungsfähigkeit
- Testdaten dürfen keinesfalls in Modellbildung einbezogen worden sein
Verschachtelte Kreuzvalidierung
- Durchführung einer äußeren (normalen) Kreuzvalidierung zur Modellevaluation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Vermeidung von Überanpassung durch
Sequential Forward Selection (SFS)
&
Sequential Backward Eleminaton (SBE)

A

SFS
> Erstellen von Modellen anhand eines Merkmals und Auswahl des besten Modells
> erstellen von Modellen, die dem ersten Merkmal ein weiteres Merkmal hinzufügen
> Vergleich der Modelle und Auswahl des besten Merkmals
> Wiederholung Verfahren bis Korrektklassifizerungsrate durch neu hinzugefügtes Merkmal nicht mehr ansteigt

SBE
> Wegnehmen von Merkmalen solange Korrektklassifizierungsrate nicht abnimmt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist das Problem bei mehrfachen Vergleichen?

A

Durchführung mehrfacer Vergleiche und Auswahl bestes Ergebnis
> statistische Signifikanz der Aussage fraglich
> Problem der Überanpassung werden meist durch merhface Vergleiche verursacht
> Auch Verfahren zur vermeidung von Überanpassung stellen mehrfache Vergleiche an

How well did you know this?
1
Not at all
2
3
4
5
Perfectly