Lecture 10: Clustering, Classification & Prediction Flashcards
What is Data Mining?
Prozess der Entdeckung nützlicher Muster oder Kenntnisse aus Datenquellen, z. B. Datenbanken, Texte, Bilder, Web.
**Data-Mining-Methoden: **
* Überwachtes Lernen: Klassifizierung und Vorhersage
* Unüberwachtes Lernen: Clustering
Explain the Knowledge Discovery Process.
- Data Cleaning
- Data Integration
- Data Reduction/Selection
- Data Transformation
- Data Mining
- Evaluation & Presentation
What is clustering?
- Ziel: Entdecken von Gruppen/Strukturen in Daten, die ähnlich sind, ohne bekannte Strukturen vorher zu kennen
- Zuweisung von Datenpunkten in Clustern (Gruppen)
- Datenpunkte innerhalb eines Clusters sind ähnlich
- Datenpunkte in verschiedenen Clustern sind nicht ähnlich
- “Ähnlichkeit” hängt von einem similarity measure ab, “Outliers”: Datenpunkte, die zu keinem Cluster gehören
What is hierarchical Clustering and k-means?
Hierarchical Clustering:
Arbeitet entweder agglomerativ oder divisive. Im agglomerativen Ansatz beginnt man mit vielen kleinen Clustern und verschmilzt sukzessive die ähnlichsten Paare, bis nur noch ein Cluster übrig bleibt. Im Gegensatz dazu startet der divisive Ansatz mit einem großen Cluster, der alle Datenpunkte enthält, und teilt diesen sukzessive in kleinere Cluster auf. Ein wesentlicher Nachteil dieses Verfahrens ist seine Performance, da der Algorithmus tendenziell zeitaufwendig ist. Außerdem liefert es keine realen Gruppen sondern nur ein Dendogram als direkte Ausgabe und hat Schwierigkeiten, Ausreißer zu behandeln.
K-means:
Im Gegensatz zum hierarchischen Clustering muss beim K-means die Anzahl k der resultierenden Gruppen im Voraus festgelegt werden. Der Algorithmus teilt dann die Datenpunkte so auf die Gruppen auf, dass die Varianz innerhalb der Gruppen minimiert und die Varianz zwischen den Gruppen maximiert wird. Der Prozess beginnt mit der zufälligen Auswahl von k Centroiden, die die Mittelpunkte der Cluster definieren. Dann wird jeder Datenpunkt dem nächstgelegenen Centroid zugewiesen, und alle Centroiden werden in den Mittelpunkt der ihnen zugewiesenen Punkte verschoben. Dieser Prozess wird wiederholt, bis keine Änderung der Zuordnung mehr erfolgt. Um die optimale Anzahl an Clustern k zu finden, wird häufig die Elbow-Methode angewendet, bei der verschiedene Werte von k ausprobiert und der k-means Algorithmus mehrmals ausgeführt wird, um den Punkt zu finden, an dem die Abnahme der Varianz abflacht (der “Ellbogen”). Ein Beispiel für die Anwendung von K-means ist die Kursanalytik, bei der versucht wird, Typen von Nutzern mit ähnlichem Verhalten zu identifizieren.
* Anzahl der Cluster (k) muss im Voraus festgelegt werden.
* Empfindlichkeit wegen unterschiedlichen Ergebnisse bei verschiedenen Durchläufen.
* Ausreißer: K-means ist empfindlich gegenüber Ausreißern.
What is classification and prediction?
Klassifikation:
- Ein Modell (vorher mit bekannten Kategorien trainiert), das Kategorien für neue Daten vorhersagt, basierend auf ihren Merkmalen.
- Methoden: Entscheidungsbäume, k-NN, Naive Bayes
Vorhersage (Prediction):
- Ein Modell (mit historischen Daten trainiert), das kontinuierliche Werte oder Trends in Daten vorhersagt.
- Beispiele: Zukünftige Aktienkurse, Wettervorhersagen, Verkaufsprognosen.
What are Decision Trees and what are Advantages and Disadvantages in Decision Trees
Ein Entscheidungsbaum ist eine baumartige Struktur ähnlich einem Flussdiagramm, wo jeder innere Knoten einen Test auf ein Attribut repräsentiert, jeder Zweig das Testergebnis und jeder Blattknoten ein Klassenlabel enthält. Die Hauptidee ist, zuerst die wichtigsten Attribute zu finden und zu testen, um den einfachsten Baum zu bauen, der mit allen Trainingsdaten übereinstimmt.
Vorteile:
1. Die Pfade im Baum repräsentieren genau die Datenpunkte, was eine schnelle Klassifikation ermöglicht.
2. Entscheidungsbäume sind leicht zu verstehen und zu interpretieren, da sie eine klare visuelle Darstellung der Entscheidungsprozesse bieten.
Nachteile:
1. Entscheidungsbäume sind instabil, da kleine Änderungen in den Daten zu völlig unterschiedlichen Entscheidungsbäumen führen können.
2. Die Berechnung kann komplex werden, insbesondere wenn der Baum sehr groß wird oder die Daten viele Attribute aufweisen.
3. Sie neigen zum Overfitting, d.h. sie passen sich zu sehr an die Trainingsdaten an und zeigen eine schlechte Performance bei neuen, unbekannten Daten.
Um die Nachteile von Entscheidungsbäumen zu mildern, gibt es Techniken wie das Beschneiden (Pruning), sowie das Boosting, das die Leistung von Entscheidungsbäumen verbessert.
How can we measure information and what is entropy?
Information wird durch die Entropie gemessen, eine statistische Methode, die die (Un-)Reinheit oder Zufälligkeit der Daten reflektiert. Ein hohes Maß an Entropie deutet auf hohe Unordnung hin, während niedrige Entropie auf mehr Ordnung hinweist. Im Kontext der Attributauswahl ist das beste Attribut dasjenige, das die größte Informationsmenge liefert, und hilft, die Daten effektiv zu trennen.
What is k-NN algorithm?
Der k-NN (k-nearest neighbors) Algorithmus ist ein “lazy learning” Ansatz, bei dem Vorhersagen durch Betrachten der k ähnlichsten Datenpunkte im Raum gemacht werden. Er kann für Klassifikation und Regression verwendet werden.
Vorgehen:
- Finde die k nächsten Nachbarn mit einer Distanzmetrik (z.B. euklidische Distanz).
- Nutze diese Nachbarn als Trainingsset für die Vorhersage, z.B. durch Mehrheitsentscheid oder gewichteten Durchschnitt.
Vorteile:
- Kein spezielles Training erforderlich.
- Einfache Implementierung.
Nachteile:
- Langsam bei großen Datensätzen.
- Die Wahl von k und die Distanzmetrik sind kritisch für die Leistung.
Die Bestimmung des geeigneten k kann durch Kreuzvalidierung erfolgen, wobei eine Faustregel k < sqrt(n) (n ist die Anzahl der Datenpunkte) vorschlägt.
How to evaluate quality?
Verfahren:
- Split Data: Daten in Trainings- und Testsets aufteilen.
Key Evaluation Metrics:
- Accuracy
- Error Rate
- Precision
- Recall
- F1 Score
Other Measures:
- Speed: Wie schnell der Klassifikator Vorhersagen treffen kann.
- Robustness: Wie gut der Klassifikator Variationen oder Ausreißer in den Daten handhabt.
- Scalability: Wie gut der Klassifikator mit steigenden Datenmengen umgehen kann.
True Positive (TP): Das Modell sagt voraus, dass eine E-Mail Spam ist, und sie ist tatsächlich Spam.
False Positive (FP): Das Modell sagt voraus, dass eine E-Mail Spam ist, aber sie ist kein Spam.
True Negative (TN): Das Modell sagt voraus, dass eine E-Mail kein Spam ist, und sie ist tatsächlich kein Spam.
False Negative (FN): Das Modell sagt voraus, dass eine E-Mail kein Spam ist, aber sie ist Spam.
Präzision (Precision): Misst das Verhältnis der korrekt positiv klassifizierten Beobachtungen zur Anzahl aller als positiv klassifizierten Beobachtungen.