11. Data Mining und Big Data Flashcards

1
Q

Was ist das Ziel von Data Mining?

A
  • Extrahierung von Wissen aus Daten
  • Mustererkennung (allgemein gültig, nicht trivial, neu, nützlich und verständlich)
  • Bewertung im Anwendungskontext mit Anwendungsexperten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Data Mining Prozess 4 Schritte

A
  • Vorbereitung
  • Vorverarbeitung
  • Analyse
  • Nachbearbeitung
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Welche Fehlerarten gibt es in der Datenvorverarbeitung?

A

Zufällige Fehler:
- Mess-oder Übertragungsfehler
- Modellierung durch additives Rauschen

Systematische Fehler
- Fehler in Berechnung von Merkmalen
- Falsche Kalibrierung von Messgeräten

Ausreißer:
- basieren auf zufälligen oder systematischen Effekten
- durch Messfehler oder Paketverluste in Datenübertragung
- Eintragung in falsche Felder oder Schreibfehler in Datenerfassung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Boxplots

A
  • Ausreißer
  • Oberer “Whisker”
  • Oberes Quartil
  • Median
  • Unteres Quartil
  • Unerer “Whisker”
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wie kann mit Fehlern umgegangen werden?

A
  • Korrektur oder Schätzung von Werten: Ersetzen durch Mittelwert, Median, Minimum oder Maximum
  • Ersetzen durch nächsten Nachbarn
  • Lineare Interpolation
  • Nichtlineare Interpolation (z.B. Splines)
  • Modellbasierte Schätzung mittels Regression
  • Filterung
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was ist der Unterschied zwischen Korrelation und Kausalität?

A

Korrelation Quantifizierung des Zusammenhangs zwischen Merkmalen

Kausalität zeigt den genauen Zusammenhang

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Klassifikation

A
  • Überwachtes lernverfahren: Klassenzuordnung anhand markierter Daten
  • Beispiele für Klassifikatoren:
  • Naiver Bayes Klassifikator
  • Lineare Diskriminanzanalyse
  • Supportvektormaschine
  • Nächster-Nachbar-Klassifikator
  • Lernende Vektor quantisierung
  • Entscheidungsbäume
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Clustering

A

Unüberwachtes Lernverfahren: Clusterzuordnung anhand unmarkierter Daten

Identifizierung von Strukturen in Datensätzen

Beispiele
- Partitionierende Methoden
- Hierarchische Methoden
- Dichtebasierte Methoden
- Gitterbasierte Methoden

Klassen und Clusterzugehörigkeiten können gleich, aber auch verschieden sein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was sind die zentralen Aspekte von Big Data?

A

“Big Data“ wird benutzt, um große Datenmengen zu beschreiben

  • Volumen (high-volume)
  • Geschwindigkeit (high-velocity)
  • Veränderungsdynamik (high-variety)
  • Unternehmerischer Mehrwert (value)
  • Validität (validity)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Welche Herausforderungen bestehen beim Big Data Mining?

A
  • Trends in Datensätzen nicht immer klar
  • Künstliche Fehler und Rauschen in den Datensätzen aufgrund der Anonymisierung
  • Umgang mit fehlenden Daten
  • Dynamische Datensätze
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Rechnung Kovarianz

A

Cov(X,Y) = E((X-E(X))*(Y-(E(Y)))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Rechnung Korrelationskoeffizient

A

Corr(X,Y) = Cov(X,Y) / S_x*S_y
→ S_x = Standardabweichung der Variable x
→ S_y = Standardabweichung der Variable y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Rechnung Standardabweichung

A

S_x = √ Var_x
→ Var_x = Varianz der x-Werte
Var_x = (Summe der Einzeldaten - Mittelwert)² / Anzahl n

How well did you know this?
1
Not at all
2
3
4
5
Perfectly