Zusatz - EBI - Data Mining Zusatz Flashcards
Der Cross Industry Standard Process for Data Mining (kurz: CRISP-DM) ist ein weit verbreitetes und akzeptiertes Prozessmodell für die Durchführung von Data-Mining-Projekten. Lesen Sie die den entsprechenden Wikipedia-Eintrag sowie die bereitgestellten Übersichtsartikel zu CRISP-DM, um die Grundzüge dieses Prozessmodells zu verstehen!
CRISP-DM = Cross Industry Standard Process for Data Mining
Branchenneutrale Bauanleitung für Data Mining Projekte
6 Phasen:
- Business Understanding
- Problem- oder UN-Ziel-Definition wird festgelegt
- Dann Kriterien zur Erreichung des Ziels bzw. zur Lösung des Problems
- Data Understanding
- Ermittlung der Datenquellen für die Analyse
- Datensätze müssen auf Qualität geprüft werden
- Data Preparation
- Daten werden vor- und aufbereitet
- Modelling
- Hier findet das eigentliche Data Mining statt
- Ziel vom Modelling: Modell wird gebaut
- Evaluation
- Ergebnisse der Analyse werden bewertet und damit auch das Modell
- Deployment
- Modell wird auf die aktuellen Daten angewendet
Ist CRISP-DM auch für die Durchführung von Analyseprojekten im Kontext von
Data Science und Big Data Analytics geeignet?
Ja da es kein neueres bzw. besseres Modell gibt, es sind alles Abänderungen des CRISP-DM Models
Für welche Phasen werden Experten benötigt
Data understanding bis Modeling
Data understanding: Erkenntnisse über Daten gewinnen und Probleme identifizieren
Data preparation: Aufbau eines geeigneten Datensatzes
Modeling: Auswahl geeigneter Data Mining Verfahren