Vorlesung 7 Flashcards
Wie erfolgt die Konstruktion eines Entscheidungsbaumes?
- Anfang: Wurzel des Baumes repräsentiert alle Datenpunkte
- In jeder Iteration wird ein Knoten des Baumes ausgewählt, welcher in zwei Teilknoten geteilt. Dazu wird eine Dimension (Feature) ausgewählt, in welcher dieser Knoten des Baumes bestmöglich geteilt wird.
- Dies wird solange wiederholt, bis nur noch eine kleine Menge von Datenpunkten in den jeweiligen Knoten vorhanden ist.
Was ist Pruning?
Bei der Konstruktion von Entscheidungsbäumen:
Am Ende können noch einzelne Knoten bei Bedarf wieder entfernt werden, um eventuelles Overfitting zu verhindern.
Welche Maße gibt es, um den besten Split eines Knotens zu bestimmen?
- Klassifikationsfehler
- Gini-Index
- Kreuzentropy (Cross Entropy)
Was ist der Gini-Index?
Der Gini-Index wird im Kontext von Entscheidungsbäumen verwendet, um die Unreinheit der Daten zu messen. Um den Gini-Index zu berechnen, subtrahiert man die Summe der quadrierten Wahrscheinlichkeiten jeder Klasse von eins.
Wie wählt man den besten Split für einen Knoten aus?
- Man geht alle d Dimensionen für einen Knoten durch und bestimmt den besten Split entlang dieser Dimension.
- Man wählt die Dimension aus, die am Ende den kleinsten Fehler erzeugt.
Sind Entscheidungsbäume abhängig von Merkmalsskalierung?
Nein
Können Entscheidungsbäume sensibel gegenüber kleinen Änderungen in den Daten sein?
Ja
Reagieren Entscheidungsbäume sensibel auf Rotation der Trainingsdaten?
Ja
Wie konstruiert man einen Entscheidungsbaum für Regression?
Erkläre Ensemble Modelle
Was ist Bootstrapping?
Man kann darüber hinaus die Bootstrap Schätzer auch aggregieren. Dies nennt man … ?
Bagging (Bootsrap Aggregation)
Was ist der Vorteil von Bagging?
Wie schaut Bootsrapping und Bagging konkret aus?
Was ist der Nachteil des Bagging-Schätzers?
Sollten alle individuellen Schätzer den gleichen großen Bias haben, so hat der Bagging-Schätzer diesen leider auch.
Was ist eine beliebte Modellwahl für die einfachen Klassifikatoren/Regressoren, um Bootstrapping + Bagging anzuwenden?
Entscheidungsbäume, diese ergeben dann einen Random Forest.
Beschreib den Ablauf zur Erstellung eines Random Forests
Wie bestimmt man die Vorhersage eines Randomforests für Klassifikations- und Regressionsprobleme?
Nenn Best Practices für die Wahl der Parameter eines Random Forests