Cross Industry Process - Data Mining Flashcards

1
Q
  1. Schritt des CRISP - DM inklusive Unterschritte (4)
A
  1. Business Unterstanding
    1.1 Hintergrund der Geschäftsziele bestimmen
    -erstes Ziel verstehen was der Kunde aus der Geschäftsperspektive wirklich möchte
    -häufig hat der Kunde viele konkurrierende Ziele und Einschränkungen
    -Business Analyst muss wichtige Faktoren aufdecken die das Projekt beeinflussen können
    Definition von:
    -Geschäftsziel(Hauptziel) und sekundär Zielen
    -Projektplan –> Plan zur Erreichung der Geschäftsziele
    -Geschäftserfolgskriterien –> Kriterien für einen sinnvollen Ausgang des Projekts bestimmen

1.2 Situation einschätzen
-Detaillierte Untersuchung aller Ressourcen, Einschränkungen, Annahmen und anderer Faktoren, die bei Festlegung des Ziels, Datenanalyse, Projektplans berücksichtigt werden sollen
Erfassen und Evaluieren von:
-Ressourcenausstattung
-Anforderungen, Annahmen und Einschränkungen
-Risiken und Eventualitäten
-Kosten und Nutzen

  1. 3 Data Mining Ziele festlegen
    - Data Mining Ziele geben Projektziele aus technischer Hinsicht an
    - Definition von Data Mining Erfolgskriterien
  2. 4 Projektplan erstellen
    - Beschreibung des beabsichtigten Projektplans zur Erreichung der Data Mining und der Geschäftsziele
    - Schritte, Auswahl von Werkzeugen und Techniken
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q
  1. Schritt des CRISP - DM inklusive Unterschritte (4)
A
  1. Data Understanding
  2. 1 Collect Initial Data
    - Erwerben der in den Projektressourcen aufgeführten Datan
  3. 2 Daten beschreiben
    - Unter der Roh- oder oberflächlichen Eigenschaften der erfassten Daten
    - Berichten über erworbene Ergebnisse –> Data Description Report
  4. 3 Daten erforschen
    - Frage nach Verwendung von Abfrage-, Visualiserung-, und Berichtstechniken (Verteilung von Schlüsselattributen, Beziehungen zwischen Attributen, einfache statistische Analysen)
    - Analysen können direkt auf Data Mining Ziele ausgerichtet sein
    - Analysen können in nachfolgende Transformations- und Datenverarbeitungsschritte einfließen –> Data Exploration Report
  5. 4 Datenqualität verfizieren
    - Untersuchen der Qualität der Daten, decken sie die erforderlichen Anforderungen ab? Gibt es Fehler in den Daten? Gibt es fehlende Werte?
    - Erstellen eines Data Quality Reports
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q
  1. Schritt des CRISP - DM inklusive Unterschritte (4)
A
  1. Data Preparation
  2. 1 Datenauswahl
    - Entscheidung welche Daten für die Analyse verwendet werden sollen (Relevanz zur Zielerreichung, Qualität, Technische Einschränkungen, rechtliche Einschränkungen)
    - welche Daten werden inkludiert, welche Daten werden exkludiert
  3. 2 Datenbereinigung
    - Erhöhung der Datenqualität um ausgewählte Analysetechniken anzuwenden (saubere Untergruppen, geeignete Vorgabewerte, Schätzung von fehlenden Daten durch statistische Tools)
    - Generierung eines Data Cleaning Reports
  4. 3 Construct Data
    - Erstellung von abgeleiteten Attributen, neuen Datensätzen oder transformierter Werte für bestehende Attribute (abgeleitete Attribute sind Attribute die aus einem oder mehreren bestehenden Attributen im selben Datensatz generiert werden. Generated Records beschreiben die Erstellung völlig neuer Datensätze
  5. 4 Daten integrieren
    - Methoden bei denen Informationen aus mehreren Datenbanken, Tabellen oder Datensätzen kombiniert werden, um neue Datensätze oder Werte zu erstellen –> Merged Data als Output
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q
  1. Schritt des CRISP - DM inklusive Unterschritte (4)
A
  1. Modelling
  2. 1 Auswahl der Modell-Technik
    - Auswahl und Dokumentation der tatsächlich verwendeten Modellierungstechnik z.B. Neuronales Netz mit Backpropagation
    - Beachten der Modelling Asumptions
  3. 2 Erstellen eines Testdesigns
    - Von der eigentlichen Modellentwicklung, muss ein Verfahren oder ein Mechanismus entwickelt werden um die Qualität und Validilität des Modells zu testen z.B. Fehlerrate bei Klassifizierung
    - Beschreibung des genauen Testdesigns für die Ausbildung, Erprobung und Bewertung
  4. 3 Modellerstellung
    - Ausführen des Modellierungstools auf den vorbereiteten Datensatz, um ein oder mehrere Modelle zu erstellen
    - Beschreibung der resultierden Modelle, Schwierigkeiten, Interpretation
  5. 4 Modellbewertung
    - Modellbewertung durch Technik- und Domain-Experten
    - Bewertung nach den vorher definierten Kriterien
    - Anpassung Modellparameter und erneute Evaluierung bis das beste Modell gefunden wurde
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q
  1. Schritt des CRISP - DM inklusive Unterschritte (3)
A
  1. Evaluation
  2. 1 Bewertung der Ergebnisse
    - Bewertung in wie weit das Modell die Geschäftsziele erfüllt oder ob es Gründe gibt wieso das Modell mangelhaft ist
    - Wenn möglich Test des Modells unter realen Bedingungen
    - Evaluierung weiterer Ergebnisse und Erkenntnisse die nicht direkt in Zusammenhang mit den Geschäftszielen stehen
  3. 2 Überprüfungsprozess
    - Gründliche Überprüfung das Data Mining Engagements, um festzustellen ob wichtiger Faktor oder Aufgabe übersehen wurde
  4. 3 Festlegen nächster Schritte
    - Entscheidung des Projektteams über weiteres Vorgehen –> Entscheidung ob Projekt abgeschlossen wird und zur Bereitstellung übergegangen wird oder ob eine Iteration stattfindet (Liste möglicher Aktionen, Entscheidung des Vorgehens inklusive Begründung)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q
  1. Schritt des CRISP - DM inklusive Unterschritte
A
  1. Bereitstellung/Deployment
  2. 1 geplante Bereitstellung
    - Nimmt Evaluierungsergebnisse auf und legt eine Strategie für den Einsatz fest
    - Dokumentation des Bereitstellungsprozesses –> allgemeines Verfahren
  3. 2 Planung der Überwachung und Wartung
    - Sorgfälltige Vorbereitung einer Wartungsstrategie
    - Definition eines detaillierten Überwachungsprozesses

Anfertigen eines finalen Reports
-Projektteam verfasst Abschlussbericht –> Zusammenfassung des Projekts und der Erfahrungen oder abschließende und umfassende Darstellung der Ergebnisse

Finale Präsentation
-Meeting am Ende des Projekts bei dem alle Ergebnisse dem Kunden präsentiert werden

Projektrückblick
-Beurteilung welche Dinge gut und welche schlecht gelaufen sind und was verbessert werden muss

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Data Mining Definition

A

Data Mining ist ein interdisziplinäres Unterfeld der Informatik. Es ist ein computerunterstützter Prozess um mittels bestimmter Methoden wie künstlicher Intelligenz, Machine Learning, Statistik und Datenbanken in großen Datensets Muster zu erkennen.

Das Kernanliegen von Data Mining ist es Wissen aus Daten zu extrahieren und dieses Wissen in eine vom Menschen verständliche Struktur zu bringen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Data Mining - Schritte, Herausforderungen und Probleme (8 Schritte)

A
  1. Database und Data Management
    - Wo kommen die Daten her? Wie kann auf sie zugegriffen werden
    - Welche Formen des Samplings werden benötigt? sind möglich, angebracht?
    - Was sind die Auswirkungen der Datenbank- oder Data Warehouse-Struktur und der Einschränkungen auf die Datenbewegung und -ausbreitung?
  2. Data Pre-Processing
    - Was sind die erforderlichen Datentransformationen, bevor ein ausgewählter Algorithmus auf die Daten angewendet werden kann?
    - Was sind wirksame Methoden, um die Dimensionalität der Daten zu reduzieren, damit die Algorithmen effizient arbeiten können?
    - Wie sollen fehlende Datenelemente modelliert werden?
  3. Wahl des Modells und statistische Inferenz
    - Welches sind die richtigen Optionen, um korrekte statistische Rückschlüsse zu gewährleisten?
    - Was sind valide Annährungen?
    - Was sind die Auswirkungen der Inferenzmethoden zu den erwarteten Ergebnissen?
    - Wie soll die resultierende Struktur bewertet und validiert werden?
  4. Interesse an Metriken
    - Was macht die abgeleitete Struktur interessant oder nützlich?
    - Wie beeinflussen die Ziele der jeweiligen Data-Mining-Aktivität die Wahl der Algorithmen oder Techniken die verwendet werden?
  5. Überlegungen zur algorithmischen Komplexität
    - Wahl der Algorithmen basiert auf der Größe und Dimensionalität der Daten
    - Wie sieht es mit Einschränkungen der Rechenressourccen aus?
    - Anforderungen an die Genauigkeit der resultierden Modelle?
    - Was sind die Überlegungen zur Skalierbarkeit und wie sollten sie berücksichtigt werden?
  6. Nachbearbeitung der entdeckten Struktur
    - Wie sollen die Ergebnisse genutzt werden?
    - Was sind die Voraussetzungen für die Verwendung zum Zeitpunkt der Vorhersage?
    - Was sind die Transformationsanforderungen zum Zeitpunkt der Modellanwendung?
    - Wie sollen Änderungen in den Daten oder den zugrunde liegenden Verteilungen verwaltet werden?
  7. Visualisierung und Verständlichkeit
    - Was sind die Einschränkungen der entdeckten Struktur aus der Perspektive der Verständlichkeit für Menschen?
    - Was sind effektive Visualisierungstechniken?
  8. Wartung, Updates und Modell-Lebenszyklus-Betrachtungen
    - Wann sollen Modelle geändert oder aktualisiert werden?
    - Wie werden die resultierden Vorhersagen oder die entdeckte Struktur mit den Metriken und Einschränkungen der Anwendungsdomäne integriert?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

CRISP - DM Erläuterung

A

CRoss InduStry Process for Data Mining

  • Methodik die die typischen Phasen eines Analyseprojekts, die mit der jeder Phase verbundenen Aufgaben und eine Erklärung zwischen diesen Aufgaben umfasst
  • Ein Prozessmodell, mit dem CRISP-DM schafft man einen Überblick über den Data-Mining-Lebenszyklus
  • Prozess der Wissensgewinnung beim Data Mining muss reproduzierbar und zuverlässig sein. Besonders für Menschen, die keinen Data Science Hintergrund haben
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

CRISP-DM Ziele und Vorteile

A
  • Sicherstellen der Qualität der Ergebnisse von Projektergebnisse zur Wissensgewinnung
  • Robust, unempfindlich gegenüber Änderungen in der Umgebung
  • Werkzeug- und technikunabhängig
  • Unterstützung der Dokumentation von Projekten
  • Erfahrung zur Wiederverwendung erfassen
  • Unterstützung von Wissenstransfer und Training
How well did you know this?
1
Not at all
2
3
4
5
Perfectly