11. Data Mining und Big Data Flashcards
Was ist das Ziel von Data Mining?
- Extrahierung von Wissen aus Daten
- Mustererkennung (allgemein gültig, nicht trivial, neu, nützlich und verständlich)
- Bewertung im Anwendungskontext mit Anwendungsexperten
Data Mining Prozess 4 Schritte
- Vorbereitung
- Vorverarbeitung
- Analyse
- Nachbearbeitung
Welche Fehlerarten gibt es in der Datenvorverarbeitung?
Zufällige Fehler:
- Mess-oder Übertragungsfehler
- Modellierung durch additives Rauschen
Systematische Fehler
- Fehler in Berechnung von Merkmalen
- Falsche Kalibrierung von Messgeräten
Ausreißer:
- basieren auf zufälligen oder systematischen Effekten
- durch Messfehler oder Paketverluste in Datenübertragung
- Eintragung in falsche Felder oder Schreibfehler in Datenerfassung
Boxplots
- Ausreißer
- Oberer “Whisker”
- Oberes Quartil
- Median
- Unteres Quartil
- Unerer “Whisker”
Wie kann mit Fehlern umgegangen werden?
- Korrektur oder Schätzung von Werten: Ersetzen durch Mittelwert, Median, Minimum oder Maximum
- Ersetzen durch nächsten Nachbarn
- Lineare Interpolation
- Nichtlineare Interpolation (z.B. Splines)
- Modellbasierte Schätzung mittels Regression
- Filterung
Was ist der Unterschied zwischen Korrelation und Kausalität?
Korrelation Quantifizierung des Zusammenhangs zwischen Merkmalen
Kausalität zeigt den genauen Zusammenhang
Klassifikation
- Überwachtes lernverfahren: Klassenzuordnung anhand markierter Daten
- Beispiele für Klassifikatoren:
- Naiver Bayes Klassifikator
- Lineare Diskriminanzanalyse
- Supportvektormaschine
- Nächster-Nachbar-Klassifikator
- Lernende Vektor quantisierung
- Entscheidungsbäume
Clustering
Unüberwachtes Lernverfahren: Clusterzuordnung anhand unmarkierter Daten
Identifizierung von Strukturen in Datensätzen
Beispiele
- Partitionierende Methoden
- Hierarchische Methoden
- Dichtebasierte Methoden
- Gitterbasierte Methoden
Klassen und Clusterzugehörigkeiten können gleich, aber auch verschieden sein
Was sind die zentralen Aspekte von Big Data?
“Big Data“ wird benutzt, um große Datenmengen zu beschreiben
- Volumen (high-volume)
- Geschwindigkeit (high-velocity)
- Veränderungsdynamik (high-variety)
- Unternehmerischer Mehrwert (value)
- Validität (validity)
Welche Herausforderungen bestehen beim Big Data Mining?
- Trends in Datensätzen nicht immer klar
- Künstliche Fehler und Rauschen in den Datensätzen aufgrund der Anonymisierung
- Umgang mit fehlenden Daten
- Dynamische Datensätze
Rechnung Kovarianz
Cov(X,Y) = E((X-E(X))*(Y-(E(Y)))
Rechnung Korrelationskoeffizient
Corr(X,Y) = Cov(X,Y) / S_x*S_y
→ S_x = Standardabweichung der Variable x
→ S_y = Standardabweichung der Variable y
Rechnung Standardabweichung
S_x = √ Var_x
→ Var_x = Varianz der x-Werte
Var_x = (Summe der Einzeldaten - Mittelwert)² / Anzahl n