KDD Prozess Flashcards
1
Q
KDD Prozess (9 Schritte)
A
KDD-Prozess ist interaktiv und iterativ und umfasst zahlreiche Schritte mit vielen Entscheidungen, die vom Benutzer getroffen werden.
- Verständnis für Andwendungsdomäne und das entsprechende Vorwissen entwickeln und das Ziel des KDD-Prozesses aus Sicht des Kunden identifizieren
- Erstellung eines Zieldatensatzes: Auswahl eines Datensatzes oder die Konzentration auf eine Teilmenge von Variablen oder Datenproben, an denen die Entdeckung durchgeführt werden soll
- Datenbereinigung und -vorverarbeitung.
- Entfernung von Noise
- Sammeln der nötigen Informationen zur Modellierung
- Umgang mit fehlenden Daten - Datenreduktion und -projektion: Finden nützlicher Merkmale zur Darstellung der Daten je nach Ziel der Aufgabe. Reduktion der Anzahl der betrachteten Variablen auf ein effektives Maß.
- Anpassung der Ziele des KDD-Prozesses an eine bestimmte Data-Mining-Methode z.B. Verdichtung, Klassifikation, Regression, Clustering
- Explorative Analyse und Modell- und Hypothesenauswahl: Auswahl des Data-Mining-Algorithmus und Auswahl der Methoden die für die Suche nach Datenmustern verwendet werden sollen. Umfasst Entscheidung, welche Modelle und Parameter geeignet sein könnten
- Data Mining: Suche nach Pattern von Interesse in einer bestimmten Darstellungsform oder einem Set solcher Darstellungen.
- Interpretation der gewonnen Muster, wobei möglicherweise zu einem der Schritte 1 bis 7 für eine weitere Iteration zurückgekehrt wird. Visualiserung der extrahierten Muster und Modelle, falls möglich
- Handeln auf Grundlage der entdeckten Muster