V02 - Vorgehensweise und Werkzeuge Flashcards
Wie lässt sich Data Science als Pipeline beschreiben? (V02F10)
○ Beginnt mit geringem analytischen und strategischen Anteil, die jeweils mit jedem Schritt etwas steigen
○ 1 Data Quality
○ 2 Descriptive Statistics
○ 3 Diagnostics: Faktoren und Ursachen identifizieren
○ 4 Predictive: Vorhersagen und Wahrscheinlichkeiten
○ 5 Semantic: sozialen Kontext und Bedeutung verstehen
(Abbildung in Unterlagen)
Wie läuft das Knowledge Discovery in Database (KDD) Modell ab? (V02F12)
○ 1. Auswahl: Datensatz wird nach potenziell nützlichen Teildatensätzen durchsucht und diese
werden extrahiert.
○ 2. Vorverarbeitung: Die ausgewählten Daten (Zieldaten) werden vorverarbeitet bzw. bereinigt,
z.B. Artefakte (Rauschen, Fehler etc.) entfernen, Konsistenz und Redundanz prüfen, Ausreißer-Detektion etc.
○ 3. Transformation: Dieser Schritt ist eigentlich Teil der Vorverarbeitung. Hier werden z.B.
Formate und Datentypen angepasst und somit die Daten für das eigentliche Data Mining vorbereitet.
○ 4. Data Mining: Die Daten werden auf Muster und Beziehungen überprüft.
○ 5. Interpretation: Es wird untersucht, ob die gefundenen Muster sinnvoll erscheinen, bzw. zur
Fragestellung passen und neue Erkenntnisse liefern können. Daraufhin werden die Muster
interpretiert und ggf. neues Wissen aus ihnen abgeleitet.
Wie läuft das CRISP-DM (Cross-Industry Reference Process for Data Mining) Modell ab?
○ 1 Business Unterstanding: Verstehen des Geschäftsproblems und Transformation in ein Daten-Analyse-Problem
○ 2 Data Understanding: Verstehen der Datenrepräsentation so wie erste explorative Analyse(n)
○ 3 Data Preparation: ETL-Prozess, Daten Transformation und Bereinigung, Anreichern, etc.
○ 4 Modelling: erstellen eines Data-Mining-Modells mit einem geeigneten Verfahren
○ 5 Evaluation: Auswahl und Bewertung des/der Modelle, Business-Ziel erreicht?
○ 6 Deployment: Anwendung des Modells im operativen Bereich
(Abbildung in Unterlagen)
Wie werden die Daten aufgeteilt?
○ Es gibt immer eine Trainings- und eine Testmenge, eine Validierungsmenge ist optional
○ 80-20 Modell: 80% Training, 20% Test
○ Bei 3 Mengen: 70% Training, 20% Validierung, 10% Test
Warum werden Modelle wie KDD und CRISP-DM durchgeführt? (V02F??)
Damit langfristig etwas gelernt wird.
Warum werden Daten überhaupt partitioniert? (V02F??)
○ Zunächst wird ein KI-Modell mithilfe der Trainingsdaten trainiert, sodass z.B. Berechnungsparameter angepasst werden können. Um dieses Modell dann testen zu können sind Daten nötig, welche nicht im Training benutzt wurden, die sog. Testdaten. Somit kann sichergestellt werden, dass das Modell nicht nur für die Trainingsdaten gute Ergebnisse liefert, sondern auch auf „neuen“ Daten.
○ Validierungs-Daten werden für Test während Training benutzt, Test-Daten werden für Test genutzt, wenn Training abgeschlossen ist (Model wird währenddessen nicht mehr verändert)