CRISP-DM Flashcards

1
Q

Worin unterscheidet die Methodologie?

A
  • Referenz Modell
    -> gibt kurz und knapp einen Überblick über die verschiedenen Phasen, Aufgaben und deren Ergebnisse, d.h. es sagt aus, WAS in einem Data Mining Projekt zu tun ist
  • User Guide
    -> gibt detaillierte Tipps und Hinweise in jeder einzelnen Phase und Aufgabe und veranschaulicht, WIE ein Data Mining Projekt durchzuführen ist, z.B. durch Fragebögen, Check Listen, Tools, Aufzeigen von Fallstricken, etc.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

CRISP-DM REFERENZ-MODELL Definition

A
  • CRoss Industry Standard Process for Data Mining
  • Industrie-Standard für einen klassischen Data-Mining-Prozess, Referenz-Modell und User Guide
  • Entwickelt von 4 namhaften Unternehmen bereits vor > 20 (!) Jahren
  • Alternativen: eigene Methodologie, SEMMA (Sample, Explore, Modify, Model, and Assess) von SAS Institute Inc., ASUM-DM (IBM)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

6 Phasen des CRISP-DM Referenz-Modells

A
  • Business Understanding
  • Data Understanding
  • Data Preparation
  • Modeling
  • Evaluation
  • Deploment
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

business understanding

A
  • Konzentriert sich auf das Verstehen des Geschäftsproblems, Verständnis der Projektziele & Anforderungen aus unternehmerischer Perspektive
  • Anschließend: Transformation des zu lösenden „Geschäftsproblems“ in ein Daten-Analyse-Problem/Data-Mining-Problem & Erstellung eines vorläufigen Planes zur Erreichung dieser Ziele
    1. Verstehen der Unternehmensziele
    2. Beurteilung der momentanen Situation
    3. Festlegung der Data-Mining-Ziele
    4. Erstellen des Projektplans
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Data Understanding

A
  • Verstehen der Datenrepräsentation sowie erste explorative Analyse(n)
  • Sich-Vertraut-machen mit den Daten, Daten-Qualitätsprobleme identifizieren, evtl. Daten-Teilmengen bestimmen
    -> Erste Hypothesen für verborgene Muster, Zusammenhänge, Abhängigkeiten, etc. formulieren
    1. Daten-Erfassung und -Sammlung
    2. Daten-Beschreibung
    3. Daten-Exploration
    4. Daten-Qualität
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Data Preparation

A

Definition
* Umfasst alle Aktivitäten zum Erstellen des finalen Datensatzes
-> Finaler Datensatz = Daten, aus den ursprünglichen Rohdaten, die durch Data-Mining- Modellierungsverfahren/ -werkzeugen später analysiert werden
-> Daten-Vorbereitungsaufgaben werden hierbei evtl. mehrfach und in unterschiedlicher Reihenfolge ausgeführt.
-> Aufgaben: Tabellen-, Datensatz- und Attributauswahl, Transformation, Bereinigung und Anreicherung der Daten für die Modellierungswerkzeuge

Einzelne Teilschritte
1. Daten-Integration
* Join von mehreren Daten-Tabellen
* Verdichtung/Aggregation von Daten, falls ich sie nicht auf hochgradualer Ebene benötige (z.B. nicht einzelne Stunden, sondern Monate)
2. Daten-Selektion
* Selektion einer Teilmenge der Attribute
-> Begründung für Ausschluss oder Einbeziehung
-> Attribute auswählen, die einen besonderen Informationsgehalt für unsere Aufgabe erhalten
3. Daten Sampling / Stichprobenentnahme
* Teilmenge der Datensätze
* Stichprobenentnahme sollte repräsentativ sein → Kein Attribut heranziehen, um die Stichprobe zu generieren
4. Daten-Formatierungen
* Syntaktisch: Entfernung/Umwandlung von Zeichen,
* aber auch z.B. Datum der Erstbestellung in Tage seit erster Bestellung (Zeitdauer),
* oder ein Datum in Tag, Monat, Jahr und evtl. Wochentag, Kalenderwoche, etc. zerlegen
5. Daten-Transformation
* Logarithmieren von Skalen
* Faktoren-/Hauptkomponenten-Analyse
* Normalisierung
* Diskretisierung, Binarisierung, etc
-> z.B. Tabelle mit 3 Biersorten
-> 0 → nein; 1 → ja
* Anonymisierung
-> Mithilfe einer Hash-Funktion
6. Daten-Bereinigung
* Behandlung von fehlenden Attribut-Werten (Weglassen oder Ersetzen?)
* Ausreißer-Behandlung (evtl. aus dem Datenbestand herausnehmen z.B. 120-Jähriger)
7. Daten-Konstruktion
* = Aus bestehenden Daten neue erzeugen
* Anzahl, Abgeleitete Merkmale bilden, z.B. BMI oder Länge x Breite = Fläche,
* Aber auch Datensätze (z.B. zwecks Gewichtung)

Beispiele für Daten-Transformationen, -Bereinigungen, -Konstruktionen
a. Gegeben: Merkmal mit den Namen deutscher Städte
Gesucht: davon abgeleitete weitere, zusätzliche Merkmale
Beispiel-Lösungen:
1. Längen- und Breitengrade (räumliche Beziehung)
2. Zuordnung zu Bundesländern (Ost-/Westdeuschland?)
3. Einwohnerzahl, Fläche, Alter, etc.
4. von 3. weitere, abgeleitete Merkmale wie z.B. Entwicklung der Einwohnerzahl, Bevölkerungsdichte, etc.
5. … (Evtl. Kaufkraft)

b. Gegeben: Merkmal mit Vornamen von Kunden
Gesucht: davon abgeleitete weitere, zusätzliche Merkmale
Beispiel-Lösungen:
1. Geschlecht, außer Unisex-Vornamen, z.B. Mika, Andrea
2. Regionale Herkunft (mit Wahrscheinlichkeiten)
3. Alter (mit Wahrscheinlichkeiten) z.B. anhand von Vornamen, die für eine bestimmte Generation modern waren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Modeling

A
  • Erstellen eines Data Mining-Modells mit einem geeigneten Verfahren,
  • Verschiedene Modellierungsverfahren werden ausgewählt & angewandt (Modell-Erstellung)
  • Ihre Parameter werden auf optimale Werte justiert
  • Meist mehrere Techniken für den gleichen Data-Mining-Problemtyp möglich
  • Einige Techniken haben spezifische Anforderungen an die Form der Daten
    -> Oftmals Iteration mit der Daten-Vorbereitungsphase erforderlich
    1. Auswahl des geeigneten Data-Mining-Verfahrens
    2. Entwicklung eines Test-Regimes
    3. Erstellen eines Data-Mining-Modells
    4. Beurteilung des Modells
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Evaluation

A
  • Auswahl und Bewertung des/der Modelle
  • Erstellt ein oder mehrere Modelle, die aus einer Daten-Analyseperspektive eine hohe Qualität zu haben scheinen
  • Modell gründlich evaluieren
  • Die durchgeführten Schritte zur Konstruktion des Modells zu überprüfen
  • Ziel:
    -> Sicherstellen, dass die Geschäftsziele tatsächlich erfüllt sind
    -> Feststellen, ob es einige wichtige geschäftliche Aspekte gibt, die nicht ausreichend berücksichtigt worden sind
  • Am Ende der Phase: Entscheidung über die Verwendung der Data-Mining-Ergebnisse treffen
  • Endgültige Implementierung des Modells erst nach dieser Phase
    1. Modell-Validierung
    2. Überprüfung des Prozesses
    3. Festlegung nächster Schritte
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Deployment

A
  • Anwendung des Modells im operativen Betrieb
  • Erstellung des Modells ist i.d.R. nicht das Ende des Projekts
  • Gewonnene Erkenntnisse müssen so organisiert & dargestellt werden, dass der Kunde sie nutzen/ anwenden kann
  • Auch wenn der Zweck des Modells nur darin besteht, die Kenntnisse über die Daten zu erhöhen
  • Komplexität der Deployment-Phase ist abhängig von den Projekt-Zielen sehr unterschiedlich
    -> Kann so einfach sein wie die Erstellung eines Berichts
    -> Oder so komplex wie die Implementierung eines automatisch-wiederholbaren Data-Mining-Prozesses
  • Meist führt der Kunde, nicht der Datenanalytiker, die Implementierungsschritte durch
  • Ist aber trotzdem wichtig für den Kunden zu verstehen, welche Maßnahmen durchgeführt werden müssen, um die erstellten Modelle tatsächlich anwenden zu können
    1. Deployment Strategie/ Plan
    2. Monitoring- und Wartungsplan
    3. Erstellung eines finalen Projekt Reports
    4. Projekt Review
How well did you know this?
1
Not at all
2
3
4
5
Perfectly