V04 - Entscheidungsbaumverfahren Flashcards
Wie ist die grundsätzliche Arbeitsweise bei Entscheidungsbäumen? (V04F12)
○ 1 Aufteilung des Gesamtbestandes in eine Trainings- und eine Testmenge
○ 2 Sukzessive Aufteilung der Trainingsmenge, so dass sich daraus homogenere Gruppen von Datensätzen bezüglich der Klassifikationsvariablen ergeben
○ 3 Darstellung der Aufteilung der Datenmenge durch einen Baum, in dem jeder Knoten eine Datenmenge indiziert, dem ein Homogenitätsmaß zugeordnet wird
○ 4 Fortführung der Aufteilung, bis das Homogenitätsmaß einen vorgegebenen Wert erreicht
○ 5 Überprüfung der Ergebnisse anhand der Testmenge
Was ist die Entropie? (V04F18)
○ Ein Maß für die Heterogenität
○ Ist Entropie = 0, so ist der Knoten homogen
○ Sie nimmt ihren Maximalwert an (log2 der Klassenanzahl), wenn eine Gleichverteilung vorliegt.
Was ist der Gini-Index? (V04F20)
○ Ist ein Maß für die Homogenität eines Knoten T
○ Ist Gini(T) = 0, so ist der Knoten homogen
○ Der Gini-Index nimmt seinen Maximalwert an, wenn eine Gleichverteilung vorliegt
○ Es wird dann der Split gewählt, der den kleinsten Gini-Index für eine Partition des Knotens T mittels Attribut A bringt
Was sind Vorteile von Entscheidungsbäumen im Vergleich zu z.B. Neuronalen Netzen? (V04F??)
○ Entscheidungsbäumen folgen klaren, nachvollziehbaren Regeln und sind lesbar, dies ist bei Neuronalen Netzen nicht der Fall
○ Entscheidungsbäume = White-Box Verfahren
○ Neuronale Netze = Black-Box Verfahren