1. Einführung Data Science Flashcards

1
Q

Grundprinzipien der Datenanalyse

A

CRISP-DM
Datenauswahl (Aus Datasets)
Overfitting
Evaluierung der Ergebnisse im Anwendungskontext

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

CRISP-DM Prozess (6 Phasen)

A
  1. Problem & Projektziel verstehen
  2. Datensichtung & Datenverständnis aufbauen
  3. Datenvorbereitung & Auswahl
  4. Auswahl & Anwendung Data Mining Modell
  5. Evaluation Ergebnis
  6. Darstellung der Ergebnisse
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Fragen bei der richtigen Datenauswahl? (3)

A

> Welche Attribute nützlich
Wie viele Attribute einbeziehen
Welche Attribute korrelieren mit untersuchenden Beobachtung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Phase 1: Business Understanding

A

> Problemverständnis
Übertragung Problem auf eine odere mehrere DS Probleme
Wie und Wo soll Modell resultieren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Phase 2: Data Understanding

A
Daten = Rohmaterial für Bau der Lösung
> Datenqualität (FitnessForUse)
> Aufwand Datenbeschaffung
> Integration Datenquellen
> Nutzen der Datenquellen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Phase 3: Data Preparation

A
Umformung der Daten
> Umwandlung in Tabellendarstellung
> Fehlende Werte schätzen/herausfiltern
> Datenkonvertierung
> Overfitting vermeiden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Phase 4: Modeling

A

Resultat = Muster/Modell, das Regelmäßigkeiten in Daten abbildet
Anwendung von DM Techniken

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Phase 5: Evaluation

A

> Ergebnisbewertung
Modellerprobung unter Laborbedingungen & Produktionsbetrieb
Bewertung Anwendbarkeit in Praxis

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Phase 6. Deployment

A

> Erzeugtes Modell muss eingebaut werden
(Produktivsetzung)
Veränderung/Anpassung des GP/Info-System

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Herausforderungen von Big Data Analytics (5)?

A
> Viele Datenquellen
> Unstukturierte Daten
> Große Datenmengen
> Generierung neuer Hypothesen
> komplexe Systeme
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Generelle Aufgaben bei der Datenalyse?

A

> Beobachtung
Modellierung/Verstehen des Systems
Vorhersagen
Entscheidungen vorbereiten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Basistechniken des Data Mining

A

> Similiarity Search
Ziel: gute Vorschläge und Prognosen bereitstellen (z.B.: K-NN)
=> Duplikate anhand von Fotos/Ähnliche Produkte wie bei Amazon

Classification
> Klasseneinteilung/Klassenzugehörigkeit prognostizieren
z.B.: Lineare Regression/Logistic Regression
> Anlage muss wissen wann etwas gut oder nicht mehr brauchbar ist
> folglich bestimmte Zustände klassifizieren

Clustering
> Menge von Daten mit Ähnlichkeiten gruppieren

Frequent Pattern
> Wie häufig treten bestimmte Dinge auf
> Patterns (Saisongeschäft nach bestimmten Muster wiederholend)
> Bsp.: Leute die IPhone kaufen kauften auch Hülle etc

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Unsupervised Learning

A

Learning without a teacher (Clustering)
Ziel: Erkennung von Mustern/Gemeinsamkeiten in den Daten

Gegeben: N Beobachtungen (x1,x2,…,xn)

Hier: keine Garantie bzgl. des Ergebnisses in Bezug auf die:

  • Sinnhaftigkeit
  • Nützlichkeit
  • Überhaupt sinnvoll?

Besitzt kein Ergebnis- oder Zielgrößenwerte bzw. Zielvariable (keine Trainingsdaten)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Supervised Learning

A

= Learning with teacher (Classification, Similarity Search)

Hier: Zielgröße/Variable gegeben

  1. Trainingsset (inputvariablen x, Ergebnis y)
  2. Vorhersagen basieren auf Trainingsdaten
    Ziel: Vorhersage der Zielgrößenwerte für neue Inputvariablen

=> Daten bei denen wir bereits die richtigen Antworten kennen (weil gelabelt) Darauf basierend soll bei künftigen EIngabewerten genau die entsprechenden Labels vorhergesagt werden)

Phasen:

  1. Trainingsphase (Modell trainieren)
  2. Evaluationsphase (Modell überprüfen)
  3. Dann Vorhersage für unbekannte Werte also unbekannte Zielgröße für neue Inputvaruable
How well did you know this?
1
Not at all
2
3
4
5
Perfectly