13 unüberwachtes Lernen Flashcards
unüberwachte lernverfahren
Klassische Ballungen
- k-means clustering
- agglomerative hierarchial clustering
Begriffliche Ballungen ( "conceptual clustering" * CLUSTER/2
Bildung von Begriffshierarchien
- COBWEB
- CLASSIT
Lernen durch Entdecken
- BACON
- ABACUS
k-means clustering
Sehr elementar aber oft eingesetzt
Teilt eine Datenmenge in eine (meist) a-priori festgelegte Anzahl von Ballungen ein
Grundidee:
- Definieren eines Mittelpunkts für jeden Cluster
- Iterative Anpassung / Verbesserung Bezüglich Daten die zu dem Cluster gehören & Bezüglich Cluster-Mittelpunkt
- Optimalitätskriterium: Minimierung der Abstände aller Datenpunkte von ihrem Ballungsmittelpunkt
k-means clustering - bewertung
Resultate hängen Stark von der initialen Belegung der Punkte ab
–> evtl werden suboptimale Lösungen gefunden
Resultate hängen von der verwendeten Metrik ab
* Curse of dimensionality! In hochdimensionalen Repräsentationen sind alle Daten unähnlich : schwer Cluster zu finden
Resultate hängen von der korrekten Wahl von k ab
fuzzy k-means clustering
Abschwächung: jeder Datenpunkt x_i hat eine abgestufte / „unscharfe“ Zugehörigkeit zu jedem Cluster X_j
P(X_j | x_i) Wahrscheinlichkeit über die Zugehörigkeit
Problem: Laufzeit = O(kn) für jede iteration
Einordnung k-means
Typ der Inferenz: induktiv
Ebene des Lernens: subsymbolisch
Lernvorgang: unüberwacht
Beispielgebung: nicht inkrementell
Umfang der Beispiele: umfangreich
Hintergrundwissen: empirisch
Hierarchische Ballungssysteme
k-means: „flache“ Datenbeschreibung
Ballungen können Sub-Ballungen und Sub-Sub-Ballungen, …, haben
Idee:
Iteratives Vereinen von (Sub-)Clustern zu größeren Clustern