Teil7 - EBI - Data Mining Flashcards

1
Q

Data Science Process Modell

A

besteht aus 6 Phasen und beschreibt den Gesamtprozess zu Entwicklung von Big Data Lösungen bis zum Betrieb eines Data Products

  1. Ideation
    - Entwicklung der Anforderungen an BigData-Lösung
  2. Data Pool Creation
    - Identifizierung der Zusammenfassung der Datenquellen in Data Pools
  3. Explorative Analysis
    - Durchführung der explorativen Analysen
  4. Automated Analysis
    - Verwendung der Data Pools durch intelligente Methoden
  5. Delivery & Storytelling
    - Ergebnisse werden bereitgestellt und präsentiert
  6. Production
    - Überführung der Produkte
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

SEMMA Modell Phasen

A

Sample
- Generierung einer repräsentativen Stichprobe der Daten

Explore
- Visualisierung und grundlegende Beschreibung der Daten

Modify
- Variablen auswählen, Variablen-Darstellung transformieren

Model
- Nutzung der Vielfalt bei statistischen und maschinellen Lernmodellen

Assess
- Bewertung der Genauigkeit und Nützlichkeit der Modelle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

SEMMA - GRISP DM

Gemeinsamkeiten und Unterschiede

A

Gemeinsamkeiten
- Der Kern der CRISP-DM entspricht den fünf Schritten des SEMMA

Unterschiede

  • 5 statt 6 Schritte
  • Bei CRISP werden zunächst die Ziele genau beschrieben
  • Bei CRISP wird der Prozess vollständig evaluiert
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

KDD - Knowledge Discovery in Data

A

Selection
- Der Datensatz, an dem Das Modell erstellt wird, wird ausgetauscht

Pre-Processing
- Datenbereinigung

Transformation
- Datensatz wird einheitlich gemacht

Data Mining
- Suche nach bestimmten Mustern im Datensatz

Interpretation/Evaluation
- Interpretation der Ergebnisse und Evaluierung des Prozesses

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

KDD - CRISP DM

Unterschiede und Gemeinsamkeiten

A

Gemeinsamkeiten
- UN-Ziele werden auf DM-Ziele übertragen

Unterschiede

  • Beim KDD werden Rückschlüsse auf die Daten erst beim Ergebnis gemacht
  • Ergebnis zeigt, ob die Daten richtig gewählt wurden und alle Schritte durchgeführt wurden (ähnlich dem Wasserfallmodell)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Ein kleines Beraterteam arbeitet bereits seit zwei Monaten erfolglos an einer Data-Mining-Aufgabe, obwohl das Projekt mit einer klaren Definition der Ziele und Anforderungen sehr gut gestartet ist. Zwei Berater diskutieren nun, wie weiter vorzugehen ist. Der eine ist davon überzeugt, dass mit CRISP-DM das falsche Prozessmodell gewählt wurde und befürwortet einen Wechsel zu SEMMA. Der andere möchte dagegen die Abbildung des Fachproblems auf eine Data-Mining-Aufgabe überprüfen und auch andere Lernverfahren in der Modellierungsphase einsetzen. Welchen Weg befürworten Sie?

A

Man sollte bei CRISP-DM bleiben, da ein Wechsel wenig Sinn macht, weil SEMMA im Kern dasselbe wie CRISP-DM bietet. Außerdem ist das Projekt schon am Laufen, ein Wechsel wäre ein großer Rückschritt. Des Weiteren sind bei CRISP Rückschritte möglich, um vorherige Phasen nochmals durchzumachen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly