4. Supervised Segmentation Flashcards

1
Q

Wie ist bei der Supervised Segmentation das generelle Vorgehen?

Wann wird diese angewandt?

A
  1. Identifizieren von informativen Merkmalen
  2. Datensegmentierung durch progressive Merkmalsauswahl

Anwendung:
Einsetzbar als Vorstufe vieler Data-Mining Techniken
Bsp.: Basis für Tree Induction (Entscheidungsbaumverfahren)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Definition Informationsgewinn & Reinheitsmaß Entropie

A

> Wahl des Merkmals mit höchsten Informationsgewinn (IG)
Berechnung des IG basiert auf dem Reinheitsmaß Entropie

pi=Wahrscheinlichkeit, dass Eigenschaft i in der Menge vorhanden ist

Informationsgewinn:
> misst die Veränderung der Entropie aufgrund neu hinzugenommener Informationen

Bsp.: Informationsgewinn bei Aufteilung in rechteckige und ovale Körper

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Entscheidungsbäume/Decision Trees

A

= Auswahl des Merkmal mit dem größten Informationsgewinn als sehr einfach Segmentierung
= Kombination mehrerer Merkmale zur Segmentierung fürhen zu Entscheidungsbäumen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wie ist der Algorithmus bei einer Tree Induction?

Bzw. Wie erzeuge ich einen Entscheidungsbaum?

A

> Divide & Conquer Ansatz
Für Teilmenge Lösung finden
- wenn nicht ausreichend ist, weiter teilen
Für jede Untermenge wird rekursiv das beste Merkmal zum Aufteilen der Menge ausgewählt
(Merkmal mit höchsten IG)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Endbedingungen für Tree Indcution Algorithmus?

A

> Blätter sind “reine Untergruppen”
keine Merkmale mehr verfügbar
Früher (Verhinderung von Overfitting)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Vorteile und Nachteile von Entscheidungsbäumen?

A

> Verständlich
Einfache Erstellung
Einfache Benutzung
Wenig Rechenaufwand
Ergebnisse des Modells sind nachvollziehbar
- Leichtere Kommunikation mit Anwendern/Managern
- keine Rechencluster nötig
- Möglichkeit der Evaluation des Modells

Nachteil
> man weiß nicht wann man aufhören soll zu teilen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Definition Wahrscheinlichkeitsabschätzung

A

> Aussagekräftigere Vorhersage durch Angabe der Wahrscheinlichkeit
- Möglichkeit, die Kunden zu ordnen
Ermittlung durch Häufigkeitsabschätzung
- Knoten mit n positiven Instanzen und m negativen Instanzen
- Wahrscheinlichkeit einer neuen Instanz in diesem Knoten positiv zu sein
n/n+m

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Entropie und Informationsgewinn

A

=> Entropie: ist ein Maß für die Unordnung in einem Datensatz
Informationsgewinn: Desto niedriger die Entropie desto höher der Informationsgewinn

=> Informationsgewinn: ein Maß für die Verringerung der Unordnung, die durch Partitionierung des ursprünglichen Datensatzes erreicht wird

How well did you know this?
1
Not at all
2
3
4
5
Perfectly