8. Clustering Flashcards

1
Q

Allgemein/Definition Clustering

A
Cluster = Sammlung von ähnlichen Objekten
Clustering = unüberwachte Segementierung (unsupervised)

Anwendungsgebiete:
> Erkennen von Mustern/Gemeinsamkeiten in den Daten
> Datenreduktion (Einheitliche Behandlung von Instanzen eines Clusters) > durhc Repräsentanten

= hier wird also nach gemeinschaftlichem Muster gesucht

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Typische Anwendungen/Applikationen von Clustering

A

> Erkennung von Kundengruppen
Datenverteilungen untersuchen
Vorverarbeitung der Daten für die Klassifikation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was sind die Voraussetzungen fpr Clustering?

bei numerischen Attributen

A

> Instanzen sind als Punkte im Raum beschreibbar
- Punkte = Vektor reeler Zahlen
- Länge des Vector = Anzahl Dimensionen im raum
Distanz zwischen zwei Punkten ist berechenbar = Ähnlichkeit zwsichen den Punkten
- Typische Distanzmaße (Euklidische Distanz, Mannhatten,…)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was sind die Anwendungsfälle für Clustering?

A

> gut geeignet für Daten m it wenigen Dimensionen

Problem:
> Hochimensionale Daten (mehrere Attribute/Dimensionen)
Bsp.: Clustern nach Titel eines Dokuments
- hier beliebig viele Wörter, schwer zu clustern
> nichtnumerische Attribute
- Verwendung alternativer Distanzmaße
z.B.: Jaccard, Cosine, Edit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q
  1. Clustering Ansatz

Welche zwei Vorgehen gibt es hierbei?

A

Art 1: Bottom Up
> Start: Jeder Punkt = sein eigenes Cluster
> Kombination der Punkte zu Cluster gemäß ihrer “Nähe”, bis Endbedingungen erfüllt ist
> Mögliche Endbedingungen:
- Festgelegte Anzahl Cluster erreicht
- Maß für die Kompaktheit des Clusters erfüllt

Art 2: Top-Down
> Start: Ein Cluster
> Rekursives Splitten der Cluster gemäß ihrer “Nähe” bis Endbedingungen erfüllt ist

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was sind Strategien der hierarchischen Clustering Algorithmen?

A

Punktzuordnungsalgorithmen
> Start: Punkte werden der Reihe nach verarbeitet
> Jeder Punkt wird dem Cluster zugeordnet, zu dem er am ehesten passt
> Festlegung der initialen Cluster erfolgt in Evaluationsphase

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Nennen Sie drei Clustering Algorithmen

A

> HIerarchisches Clustering
K-Means/Nearesst Neighbor Clustering
CURE Clustering (Repräsentant statt Zentroid)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was beschreibt der Fluch der Dimensionalität?

A

in hochdim. Räumen sind fast alle Punktpaare gleich weit voneinander entfernt
> es gibt kaum Punkte in hochdim. Räumen die nah beieinander liegen
> durchschnittliche Distanz entspricht deshalb nahezu der maximalen Distanz zwischen zwei Punkten
> Finden von Clustern daher sehr schwer

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Vorgehen bei dem hierarchischen Clustern im Detail

A

> Wahl einer geeigneten Distanzfunktion
- Euklidische Distanz, Manhatten
Repräsentation des Cluster durch dessen Zentroid (Schwerpunkt der Fläche) oder dem Durchschnitt der Punkte
Start: Jeder Punkt ist ein Cluster i(der Zentroid)
Berechnung der Distanzen zwischen den Zentroiden der Cluster
Die Cluster mit der geringsten Distanz werden zusammengelegt => Bestimmung des Zentroids des neuen Clusters

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Nennen Sie drei Stoppbedingungen für hierarchisches CLustering

A

> Festgelegte Anzahl an Clustern ist erreicht
Maß für die Kompaktheit des Clusters ist erfüllt
Es ist nur noch ein CLuster vorhanden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Vorgehen für ein optimales und effizientes hierarchisches Clustering

A

> Bei jedem Schritt muss die Distanz zwischen allen CLustern berechnet werden

Optimierungen

  1. Alle Distanzen Berechnen
  2. Clusterpaare nach ihrer Distanz sortiert ablegen
  3. Beim Vereinigen zweier Cluster die nun obsoleten Einträge aus der sortierten Liste entfernen
  4. Neuberechnung der DIstanen des neuen Clusters mit allen anderen Clustern und ablegen der DIstanen in die sortierte Liste

(Nur Schritt 3 und 4 müssen mehrmals durchgeführt werden)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Nennen Sie alternative Clusterauswahlen für hierarchisches CLustering

A
  1. Singe Linkage (kürzester Abstand zwischen den Punkten aus zwei Clustern)
  2. Complete Linkage (größter Abstand zwischen den Punkten aus zwei Clustern)
  3. Average Linkage: Distanz = der durchschnittliche Abstand aller Punkt x und y
  4. Radius: maximaler Abstand eines Punkts des Clusters zum Zentroid
  5. DUrchmesser: maximaler ABstand zwsichen zwei Punkten innerhalb des CLusters
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Vorgehen beim CLustern von nichtnumerischen Attributen

A

> DIstanzberechnung durch Jaccard, Cosine, Edit DIstanzmaße
Zentroid zur Repräsentation eines Clusters steht nicht zur Verfügung

Lösung: Auswahl eines Punktes als Repräsentatn des CLuster => Clustorid

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q
K-Means Algorithmus (Clustering), Nennen Sie:
Voraussetzung
Vorgehen
Stopp des Verfahrens
Alternativen
Problem
A

Voraussetzung:
> Euklidischer Raum => Numerische Attribute
(nichtnummerische Attribute nicht möglich)
> Festlegung der Anzahl der zu erzeugenden Cluster k
(k = Clustermenge)

Vorgehen:
1. Wahl von k Punkten als Anfangszentren
= Initiale Zentroiden der k Cluster
—wiederhole
2. Ordne jeden Punkt dem Cluster zu, zu dessen Zentrum er am nähesten liegt
3. Berechne Clusterzentren neu
—-bis sich die Zentren nicht mehr ändern

  1. Für alle übrigen Punke p
    • Finde den Zentroid mit minimalen Abstand zu p
    • Füge p dem Cluster hinzu und korrigiere dessen Zentroid entsprechend
      (Also Distanz wieder imit Euklidischer Funktion neu berechnen)

Stopp des Verfahrens:
> bei der Überprüfung keine Punkte mehr anderen Clustern zugeordnet werden müssen

Alternativen
> Mehrfache Anwendung des Verfahrens und danach Auswahl des besten Modells
> Messung der Verzerrung der Cluster

Problem:
> jeder Punkt einem Cluster zugewiesen, somit gibt es keine Möglichkeit Ausreißer zu erkennen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Ermittlung des optimalen k Werts?

A

> Austesten verschiedener Werte für k

> Abstand sinkt zunächst stark bis zum optimalen k, dann nur noch gering

> wenig k großer Abstand mit steigendem k ABstand zwischen Zentroiden immer geringe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Beschreiben Sie das CURE Clustering

A

Clustering using Representatives Algorithmus (CURE)
> Keine EInschränkungen bezgl. der Clusterform
> Cluster wird nicht durch den Zentroid sondern repräsentative Punkte repräsentiert

CURE Initialisierung

  1. kleine Stichprobe an Instanzen wird durch hierarchisches Clusterverfahren geclustered
  2. Wahl von repräsentativen Instanzen in diesen Clustern
    - Punktwahl die am weitesten voneinander entfernt
  3. repräsentativen Punkte der Cluster werden nun zum Zentroid des Clusters verschoben

Abschlusss:

  1. Suche repräsentative Punkte unterschiedlicher Cluster die sich “ausreichend” nah sind
    - Zusammenführen dieser Cluster
    - Wiederholung Zusammenlegen bis es keine ausreichend nahen Kandidaten mehr gibt
  2. Verarbeitung der ursprünglichen Datenmenge
    - Vergleich Punkte mit repräsentativen Punkten der Cluster
    - Zuweisung der Punkte zu dem Cluster dessen Repräsentant den geringsten Abstand hat
17
Q

Clustering Ergebnisinterpretation & Explorativ Datenanalyse

A

> Gruppierung von Instanzen in Clustern
- Erkenntnisgewinn?
Zentroid fasst die Instanzen des Clusters zusammen
- Auswahl einer Instanz dieses Clusters als Repräsentant, falls Zentroid nicht aussagekräftig

Explorative Datenanalyse
> Kann zur Konkretisierung der Fragestellung benutzt werden
> Fördert das Datenverständnis

18
Q

Wann macht die Verwendung einer Kreuzvalidierung Sinn?

A

> macht bei Clustering keinen Sinn, da keine Zielvariable
kann nicht mehrere Tests durchführen
messen oder trainieren ist hier nicht möglich

Einsatz eher bei Overfitting (Hier existiert Zielvariable)