Teil7 - EBI - Data Mining Flashcards
Data Science Process Modell
besteht aus 6 Phasen und beschreibt den Gesamtprozess zu Entwicklung von Big Data Lösungen bis zum Betrieb eines Data Products
- Ideation
- Entwicklung der Anforderungen an BigData-Lösung - Data Pool Creation
- Identifizierung der Zusammenfassung der Datenquellen in Data Pools - Explorative Analysis
- Durchführung der explorativen Analysen - Automated Analysis
- Verwendung der Data Pools durch intelligente Methoden - Delivery & Storytelling
- Ergebnisse werden bereitgestellt und präsentiert - Production
- Überführung der Produkte
SEMMA Modell Phasen
Sample
- Generierung einer repräsentativen Stichprobe der Daten
Explore
- Visualisierung und grundlegende Beschreibung der Daten
Modify
- Variablen auswählen, Variablen-Darstellung transformieren
Model
- Nutzung der Vielfalt bei statistischen und maschinellen Lernmodellen
Assess
- Bewertung der Genauigkeit und Nützlichkeit der Modelle
SEMMA - GRISP DM
Gemeinsamkeiten und Unterschiede
Gemeinsamkeiten
- Der Kern der CRISP-DM entspricht den fünf Schritten des SEMMA
Unterschiede
- 5 statt 6 Schritte
- Bei CRISP werden zunächst die Ziele genau beschrieben
- Bei CRISP wird der Prozess vollständig evaluiert
KDD - Knowledge Discovery in Data
Selection
- Der Datensatz, an dem Das Modell erstellt wird, wird ausgetauscht
Pre-Processing
- Datenbereinigung
Transformation
- Datensatz wird einheitlich gemacht
Data Mining
- Suche nach bestimmten Mustern im Datensatz
Interpretation/Evaluation
- Interpretation der Ergebnisse und Evaluierung des Prozesses
KDD - CRISP DM
Unterschiede und Gemeinsamkeiten
Gemeinsamkeiten
- UN-Ziele werden auf DM-Ziele übertragen
Unterschiede
- Beim KDD werden Rückschlüsse auf die Daten erst beim Ergebnis gemacht
- Ergebnis zeigt, ob die Daten richtig gewählt wurden und alle Schritte durchgeführt wurden (ähnlich dem Wasserfallmodell)
Ein kleines Beraterteam arbeitet bereits seit zwei Monaten erfolglos an einer Data-Mining-Aufgabe, obwohl das Projekt mit einer klaren Definition der Ziele und Anforderungen sehr gut gestartet ist. Zwei Berater diskutieren nun, wie weiter vorzugehen ist. Der eine ist davon überzeugt, dass mit CRISP-DM das falsche Prozessmodell gewählt wurde und befürwortet einen Wechsel zu SEMMA. Der andere möchte dagegen die Abbildung des Fachproblems auf eine Data-Mining-Aufgabe überprüfen und auch andere Lernverfahren in der Modellierungsphase einsetzen. Welchen Weg befürworten Sie?
Man sollte bei CRISP-DM bleiben, da ein Wechsel wenig Sinn macht, weil SEMMA im Kern dasselbe wie CRISP-DM bietet. Außerdem ist das Projekt schon am Laufen, ein Wechsel wäre ein großer Rückschritt. Des Weiteren sind bei CRISP Rückschritte möglich, um vorherige Phasen nochmals durchzumachen.