4. Supervised Segmentation Flashcards
Wie ist bei der Supervised Segmentation das generelle Vorgehen?
Wann wird diese angewandt?
- Identifizieren von informativen Merkmalen
- Datensegmentierung durch progressive Merkmalsauswahl
Anwendung:
Einsetzbar als Vorstufe vieler Data-Mining Techniken
Bsp.: Basis für Tree Induction (Entscheidungsbaumverfahren)
Definition Informationsgewinn & Reinheitsmaß Entropie
> Wahl des Merkmals mit höchsten Informationsgewinn (IG)
Berechnung des IG basiert auf dem Reinheitsmaß Entropie
pi=Wahrscheinlichkeit, dass Eigenschaft i in der Menge vorhanden ist
Informationsgewinn:
> misst die Veränderung der Entropie aufgrund neu hinzugenommener Informationen
Bsp.: Informationsgewinn bei Aufteilung in rechteckige und ovale Körper
Entscheidungsbäume/Decision Trees
= Auswahl des Merkmal mit dem größten Informationsgewinn als sehr einfach Segmentierung
= Kombination mehrerer Merkmale zur Segmentierung fürhen zu Entscheidungsbäumen
Wie ist der Algorithmus bei einer Tree Induction?
Bzw. Wie erzeuge ich einen Entscheidungsbaum?
> Divide & Conquer Ansatz
Für Teilmenge Lösung finden
- wenn nicht ausreichend ist, weiter teilen
Für jede Untermenge wird rekursiv das beste Merkmal zum Aufteilen der Menge ausgewählt
(Merkmal mit höchsten IG)
Endbedingungen für Tree Indcution Algorithmus?
> Blätter sind “reine Untergruppen”
keine Merkmale mehr verfügbar
Früher (Verhinderung von Overfitting)
Vorteile und Nachteile von Entscheidungsbäumen?
> Verständlich
Einfache Erstellung
Einfache Benutzung
Wenig Rechenaufwand
Ergebnisse des Modells sind nachvollziehbar
- Leichtere Kommunikation mit Anwendern/Managern
- keine Rechencluster nötig
- Möglichkeit der Evaluation des Modells
Nachteil
> man weiß nicht wann man aufhören soll zu teilen
Definition Wahrscheinlichkeitsabschätzung
> Aussagekräftigere Vorhersage durch Angabe der Wahrscheinlichkeit
- Möglichkeit, die Kunden zu ordnen
Ermittlung durch Häufigkeitsabschätzung
- Knoten mit n positiven Instanzen und m negativen Instanzen
- Wahrscheinlichkeit einer neuen Instanz in diesem Knoten positiv zu sein
n/n+m
Entropie und Informationsgewinn
=> Entropie: ist ein Maß für die Unordnung in einem Datensatz
Informationsgewinn: Desto niedriger die Entropie desto höher der Informationsgewinn
=> Informationsgewinn: ein Maß für die Verringerung der Unordnung, die durch Partitionierung des ursprünglichen Datensatzes erreicht wird