1. Einführung Data Science Flashcards
Grundprinzipien der Datenanalyse
CRISP-DM
Datenauswahl (Aus Datasets)
Overfitting
Evaluierung der Ergebnisse im Anwendungskontext
CRISP-DM Prozess (6 Phasen)
- Problem & Projektziel verstehen
- Datensichtung & Datenverständnis aufbauen
- Datenvorbereitung & Auswahl
- Auswahl & Anwendung Data Mining Modell
- Evaluation Ergebnis
- Darstellung der Ergebnisse
Fragen bei der richtigen Datenauswahl? (3)
> Welche Attribute nützlich
Wie viele Attribute einbeziehen
Welche Attribute korrelieren mit untersuchenden Beobachtung
Phase 1: Business Understanding
> Problemverständnis
Übertragung Problem auf eine odere mehrere DS Probleme
Wie und Wo soll Modell resultieren
Phase 2: Data Understanding
Daten = Rohmaterial für Bau der Lösung > Datenqualität (FitnessForUse) > Aufwand Datenbeschaffung > Integration Datenquellen > Nutzen der Datenquellen
Phase 3: Data Preparation
Umformung der Daten > Umwandlung in Tabellendarstellung > Fehlende Werte schätzen/herausfiltern > Datenkonvertierung > Overfitting vermeiden
Phase 4: Modeling
Resultat = Muster/Modell, das Regelmäßigkeiten in Daten abbildet
Anwendung von DM Techniken
Phase 5: Evaluation
> Ergebnisbewertung
Modellerprobung unter Laborbedingungen & Produktionsbetrieb
Bewertung Anwendbarkeit in Praxis
Phase 6. Deployment
> Erzeugtes Modell muss eingebaut werden
(Produktivsetzung)
Veränderung/Anpassung des GP/Info-System
Herausforderungen von Big Data Analytics (5)?
> Viele Datenquellen > Unstukturierte Daten > Große Datenmengen > Generierung neuer Hypothesen > komplexe Systeme
Generelle Aufgaben bei der Datenalyse?
> Beobachtung
Modellierung/Verstehen des Systems
Vorhersagen
Entscheidungen vorbereiten
Basistechniken des Data Mining
> Similiarity Search
Ziel: gute Vorschläge und Prognosen bereitstellen (z.B.: K-NN)
=> Duplikate anhand von Fotos/Ähnliche Produkte wie bei Amazon
Classification
> Klasseneinteilung/Klassenzugehörigkeit prognostizieren
z.B.: Lineare Regression/Logistic Regression
> Anlage muss wissen wann etwas gut oder nicht mehr brauchbar ist
> folglich bestimmte Zustände klassifizieren
Clustering
> Menge von Daten mit Ähnlichkeiten gruppieren
Frequent Pattern
> Wie häufig treten bestimmte Dinge auf
> Patterns (Saisongeschäft nach bestimmten Muster wiederholend)
> Bsp.: Leute die IPhone kaufen kauften auch Hülle etc
Unsupervised Learning
Learning without a teacher (Clustering)
Ziel: Erkennung von Mustern/Gemeinsamkeiten in den Daten
Gegeben: N Beobachtungen (x1,x2,…,xn)
Hier: keine Garantie bzgl. des Ergebnisses in Bezug auf die:
- Sinnhaftigkeit
- Nützlichkeit
- Überhaupt sinnvoll?
Besitzt kein Ergebnis- oder Zielgrößenwerte bzw. Zielvariable (keine Trainingsdaten)
Supervised Learning
= Learning with teacher (Classification, Similarity Search)
Hier: Zielgröße/Variable gegeben
- Trainingsset (inputvariablen x, Ergebnis y)
- Vorhersagen basieren auf Trainingsdaten
Ziel: Vorhersage der Zielgrößenwerte für neue Inputvariablen
=> Daten bei denen wir bereits die richtigen Antworten kennen (weil gelabelt) Darauf basierend soll bei künftigen EIngabewerten genau die entsprechenden Labels vorhergesagt werden)
Phasen:
- Trainingsphase (Modell trainieren)
- Evaluationsphase (Modell überprüfen)
- Dann Vorhersage für unbekannte Werte also unbekannte Zielgröße für neue Inputvaruable