08 Entscheidungsbäume Flashcards

1
Q

Für welche Problemstellungen eignen sich Decision Trees

A
  • Instanzen lassen sich als Attribut-Wert Paar beschreiben
  • Zielfunktion besitzt diskrete Ausgabewerte
  • Disjunkte Hypothesen erforderlich
  • Beispieldaten sind möglicherweise verrauscht
  • Beispieldaten enthalten evtl. fehlende Attributwerte
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Entropie

A

Maß der Homogenität der Trainingsdaten

Entropie(S) = -plog_2(p) - plog2(p)

Ziel ist es die Daten durch Festhalten eines Attributwertes v möglichst in die Klassen einzuteilen, dh. die Entropie maximal zu reduzieren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wahl des nächsten Attributes

A

Idee: Ein gutes Attribut teilt die Beispiele idealerweise in Teilmengen auf, die alle positiv oder negativ sind

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

ID3 : Suche im Hypothesenraum

A

Es gibt typischerweise viele Entscheidungsbäume, die mit den Trainingsbeispielen konsistent sind

Hypothesenraum ist bei Bäumen vollständig, d.h. Zielfunktion ist enthalten

Suche der Hypothese: „Simple-to-Complex“ oder „Hill Climbing“ nach Informationsgewinn

Lokale Minima (wie bei allen Hill Climbing Algorithmen) möglich

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

ID3: Induktiver Bias

A

H ist bei ID3 die Potenzmenge der möglichen Instanzen X

Präferenz für kleine Bäume und für Bäume, deren Attribut nahe der Wurzel einen hohen Informationsgewinn besitzen

ID3-Bias ist eine Präferenz für bestimmte Hypothesen, aber keine Restriktion des Hypothesenraums H

Occam‘s Razor: Bevorzuge die einfachste Hypothese, die mit den Trainingsdaten übereinstimmt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

ID3: Overfitting

A

Jeder Zweig wächst solange, bis die Trainingsbeispiele perfekt klasssifiziert werden

=> kann zu Problemen führen, wenn

  • die Daten verrauscht sind
  • die Beispiele nicht repräsentativ sind

Eine Hypothese h overfittet die Daten D, wenn es eine alternative Hypothese h’ gibt, sodass:

  1. Fehler_T(h) < Fehler_T(h’) UND
  2. Fehler_D(h) > Fehler_D(h’)

Fehler_T(h) : Fehler der Hypothese h auf den Trainingsdaten

Fehler_D(h): Fehler der Hypothese h auf der gesamten Verteilung D der Daten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Vermeidung von Overfitting

A

Lösungen:

  • frühzeitiges stoppen des baumwachstums
  • nachträgliches Prunen des Baumes (in der praxis erfolgreicher)

Kriterium für die Bestimmung der optimalen Baumgröße:

  • separate testdatenmengen
  • statistischer test auf den trainingsdaten
  • maß für die kodierungskomplexität der trainingsbeispiele und des entscheidungsbaums
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Reduced Error Pruning

A
  1. Teile die Daten in Trainings- und Testdaten auf.
  2. Solange sich das Pruning nicht negativ auswirkt:
    a. Evaluiere die Auswirkungen des Entfernens jedes Knotens (und seiner Nachfolgeknoten) auf die Klassifikationsgüte bzgl. der Testdaten.
    b. Entferne den Knoten, dessen Entfernen die Klassifikationsrate bzgl. der Testdaten am meisten erhöht.

Resultat:
Liefert die kleinste Variante des akkuratesten Unterbaums

Problem:
Bei wenigen Daten erhöht das Aufteilen der Daten die Fehleranfälligkeit noch weiter

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Vorgehen bei kontinuierlichen Attributwerten

A

Dynamische Definition eines neuen diskret-wertigen Attributs A_c: wahr, wenn A>c

Wahl des Schwwellwertes c:

  • sortierung der Beispiele gemäß ihrer Werte
  • optimaler schwellwert liegt in der Mitte zwischen zwei benachbarten Beispielen mit unterschiedlichen Klassenzugehörigkeiten
  • bei mehreren möglichen c, wahl desjenigen mit dem höchsten Informationsgewinn
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

ID3: Window

A

Lernmethode für große Datenmengen

  • wähle zufällige Untermenge der Trainingsdaten aus (“window”)
  • bestimme Decision Tree mit diesen Beispielen
  • klassifiziere alle übrigen beispiele mit gelerntem Decision tree
  • falls nicht alle daten korrekt klassifiziert, füge einen zufällig gewählten teil der falsch klassifizierten zum fenster hinzu und erstelle neuen decision tree
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

C4.5: Rule Post-Pruning

A
  1. Erstelle Baum wie gewohnt aus den Trainingsdaten (overfitting erlaubt)
  2. konvertiere den Baum in äquivalente Menge von IF-Then Regeln. IF-Teil enthält alle Attributtests eines Pfads, THEN die Ausgabe/Klasse
  3. “Prune” die Regeln so lange sich ihre Vorhersagegenauigkeit nicht verschlechtert (durch Entfernen von Vorbedingungen)
  4. Sortiere alle Regeln nach ihrer Klassifikationsgüte und verwende sie in diesr Reihenfolge
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

C4.5 Abschätzung der Güte der Regeln

A

Pessimistische Abschätzung:

  • Bestimmung der Regelgüte auf den Trainingsdaten
  • Verwenden von statistischen Verfahren

Heuristik ist statistisch nicht ganz einwandfrei, führt in der Praxis jedoch dennoch zu guten Ergebnissen

Vorteile:
+ unterscheidung zwischen verschiedenen Kontexten, in denen ein Entscheidungskonten benutzt wird
(eine regel für jeden Pfad durch den baum)

+ keine unterscheidung zwischen Attributen näher an der Wurzel und solchen näher an den Blättern
–> vereinfacht das Prunen

+ Lesbarkeit für den Menschen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

ID5R

A

Inkrementelles Verfahren
=> sukzessives Einbringen von Beispielen in den Aufbau des Entscheidungsbaumes

Ergebnis ist äquivalent zu einem von ID3 erzeugten Baum

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

ID5R Baum Update Algorithmus

A
  1. Gegeben: bestehender EB
  2. Gegeben: neue instanz I
  3. Wenn EB leer:
  4. dann gibt einen Antwortkonten mit der Klasse von I zurück
  5. Wenn EB ein Antwortknoten mit der gleichen Klasse wie I
  6. dann füge I zur Menge der Instanzen dieses Knotens hinzu
  7. Sonst: (die ersten beiden Bedingungen sind falsch.)
  8. Wenn EB Antwortknoten,
    1. Umwandlung in Entscheidungsknoten mit beliebigem Testattribut.
  9. Aktualisiere die Zähler des Entscheidungsknotens (für Testattribut und alle anderen Attribute)
  10. Wenn das Testattribut nicht optimal:
  11. Restrukturiere den Baum so, dass Attribut mit höchstem Informationsgewinn Testattribut wird.
  12. Wähle Testattribute mit höchstem Informationsgewinn rekursiv in den Unterbäumen.
  13. Aktualisiere rekursiv den gemäß des Attributwerts von I (neue Instanz) gewählten Unterbaum.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

ID5R: Restrukturierung

A
  1. Wenn Attribut A_neu mit höchstem Informationsgewinn an der Wurzel:
  2. dann terminieren
  3. sonst:
  4. Ziehe A_neu rekursiv an die Wurzel jedes direkten Unterbaums. Falls erforderlich wandle jeden Antwortknoten in Entscheidungsknoten mit Testattribut um
  5. Transponiere den Baum so, dass A_neu an der Wurzel des neuen Baums und A_alt an der Wurzel jedes direkten Unterbaumes steht.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Random Forests

A

Mehrer Entscheidungsbäume erstellen * einfach * unkorrelliert * zufällige Wahl von Attributen

Für eine Klassifikation darf jeder Baum in diesem Wald eine Entscheidung treffen

Die klasse mit den meisten Stimmen entscheidet die endgültige klassifikation

Eigenschaften:

  • schnelles training
  • parrallelisierbar
  • effizient für große Datenmengen

Eigenschaften der erstellten Bäume:

  • jeder baum sollte für sich ein guter klassifikator sein
  • die bäume sollten untereinander möglichst unkorreliert sein

Randomisierungsmöglichkeiten:

  • Bootstraping: aus N trainingsdaten werden N trainingsbeisiele mit zurücklegen gezogen. Baum hat so ca. 63% der Größe verglichen mit allen Trainingsdaten
  • Auswahl des Attributtests aus einer Teilmenge der vorhandenen Attributtests.
  • the main secret is to inject the “right kind of randomness”