2 & 3 Datenanalyse/Data Mining Flashcards
Datenanalyse Allgemein
> Techniken zur Konsolidierung, Analyse und Bereitstellung der Daten zur Entscheidungsunterstützung
Basiert meist auf Data Warehouse
Teil des Knowledge Discovery Prozess in Database (KDD)
Data Warehouse
(Datenquell für)
Typische Applikationen die auf DWH basieren?
Datenquell für:
> komplexe Analysen
> KDD
> Entscheidungsfindung
Typische Applikationen die auf DWH basieren > Online Analytical Prozessing (OLAP) > Decision-Support-System (DSS) > Management Information Systems (MIS) > Data Mining (DM)
OLAP (Online Analytical Processing)
=> solche Anwendungen bereiten die Daten in einem DW auf (analysieren oder bereiten visuell auf)
Methoden:
> Multidimensionale konzeptionelle Sichten
> Unlimitierte Dimensionen und Aggregationsstufen
> Interaktive Analayse anhand typischer Interaktionen
> Slice, Dice, Roll-Up, Drill-Down
Definition Decision-Support-System (DSS)
= Entscheidungen bei schlecht strukturierten Problemen und unvollständigen Daten vorbereiten (DSS)
> Flexibler EInsatz
> Modellgestützt oder Datengestützt
(ermitteln für menschliche Etnscheidungsträger für operative und strat. Aufgaben relevante Infos, aufbereiten und stellen diese übersichtlich zusammen
Definition Data Mining
Beispiel für Große Datenmengen
= Prozess zum entdecken interessanter Muster und Erkenntnisse von großen Datenmengen
Beispiele
- Geschäftswelt: Web, E-Commerce, Sensoren
- Wissenschaft: Bioninformatik, wissenschaftl. Simulationen
- Gesellschaft: Nachrichten, YouTube, Twitter
Data Mining = Automatische Analyse von riesigen Datenmengen
Data Warehouse & Data Mining
> DWH enthhält historische Daten zur Entscheidungsunterstützung
NUtzung des DWH als Datenquelle für Data Mining
Gewinnung von neuen Erkenntnissen aus vorhandenen Daten in DWH
Phasen des Knowledge Discovery (KDD) Prozess
1, Datenauswahl
2. Datenreinigung/Datenanreicheurng/Transformation
(Teil des ETL-Prozesses im DWH (Datenvorbereitung im DWH)
3. Data Mining
4. Datenvisualisierung (Integration der Ergebnisse zurück ins Data Warehouse
Ziel Data MIning/Knowledge Discovery in Database
- Vorhersagen (Attributwert in Zukunft vorhersagen)
- Identifikation (Erkennen eines Gegenstands/Aktivität)
- Klassifikation (Kategoriesierung/Klassifizierung Daten)
- Optimierung (Optimierung Nutzen von besch. Ressourc)
Nenne Sie 4 Datenarten und jeweils 2 Beispiele
Strukturierte Daten - relationale Daten/Tabellen - CSV Semistrukturierte Daten - JSON, XML, HTML Unstrukturierte Daten - Dokumente, Textdaten, Nachrichten Datensätze - Dokumente - relationale Daten/Tabellen
Kategorisierung der Attribute (4 Kategorien)?
nominal (keine Ordnung)
- Bsp.: blau, rot
ordinal
- Bsp.: sehr gut, gut
Diskret - Zählergebnisse Bsp.: Anzahl Teilnehmer, Räume Stetig (stetige Werte/Messungen) Bsp.: Zeit, Gewicht, Länge, Temperatur
Datenverständnis entwickeln (Beschreibung der Daten)
> Lagemaße, Streuungsmaße
Verteilungscharakteristiken
- Median, Min, Max, Varianz, Quantil
Nennen Sie die drei Lagemaße
=> Durchschnitt
=> Median
=> Modus (Wert der am häufigsten vorkommt)
Ziel und Aufgabe der Datenvisualisierung
= Effiziente und klare Vermittlung der Daten an Benutzer durch graphische Repräsentation
Ziele:
> Einblicke in den Datenraum erhalten
> Gewährung qualitativer Überblick großer Datenmegngen
> Suchen von Mustern, Trends, Strukturen, UNregelmäßigkeiten, Beziehungen in den Daten
> Lokalisierung interesanter Regionen für genauere Analyse
> Visueller Beweir von Zusammenhängen
Was gibt die Standardabweichung an?
wie weit die einzelnen Messwerte im Durchschnitt von dem Erwartungswert (mittelwert) entfernt sind.
Berechnet aus der Quadratwurzel der Varianz
Nennen Sie verschiedene Visualisierungstechniken
Bog Plots/Quantil Plots
= Darstellung Verteilungen & Lagemaße für einzelne Attribute
Histogramme
= Darstellung der Häufigkeiten von Wertebereichen eines Attributs
(Welche Instanzen fallen in den jeweiligen Wertebereich?)
- Density/Heat Maps
- Scatter Plots/Scatter Plots 3D
- Bubble Chart
- Scatter Plott Matrix
- Parallel Coordinates
= n-Dimensionale Daten werden durch n Achsen dargestellt
= jede Achse kann auf den lokalen Wertebereich (Min, Max) ihrer Dimensionen skaliert werden
= Ordnung der Dimensionen wichtig
Was ist der Kontext der Datenvorverbereitung?
Eigenschaften realer Daten: => Unvollständig => Noisy (ungenaue Daten) => riesige Datenmengen (garbage in garbage out)
Datenverarbeitung = Techniken zur Verbesserung der Datenqualität > Datenreinigung/Data Cleaning > Datenintegration > Datenreduktion > Datentransformation
Definition Datenqualität?
3 Qualitätskriterien?
= Eignung der Daten für ihren vorgesehenen Zweck (fitness for use)
Qualitätskriterien:
Genauigkeit, Vollständigkeit, Konsistenz
Nennen Sie Gründe für schlechte Datenqualität
- keine Validierung im UI
- Virus
- veraltete Daten
- Fehler bei Datenerfassung (Feld zu kurz)
- keine Qualitätsprüfung beim festschreiben der Daten
- nicht gut modellierte Daten/Datenmoell
- Datenkonvertierungsfehler
Der Ablauf bei der Datenvorverarbeitung
- Datenreinigung
- fehlende Werte einsetzen, Ausreißer löschen, Inkonsistenzen auflösen - Datenintegration
- Vereinigung mehrerer Datenquellen - Datenreduktion
- Dimensionen/Datensätze reduzieren - Datentransformation
- Vereinheitlichung/Übersetzung der Daten
Mit welchen Problemen befasst sich die Datenreinigung?
=> Fehlende Attribute/Werte
=> noisy/ungenaue Daten
=> Inkonsistente Daten
=> Data Scrubbing
Datenreinigung: Lösungsansatz bei Fehlenden Attributen
> Ignorieren der Instanz z.B. fehlender Zielvariable
Manuelles EInfügen der Werte
Einfügen eines Defaultwerts
Median/Durchschnitt des Attributs einfügen oder der Klasse der Instanz
wahrscheinlcihsten Wert einfügen
Datenreinigung: Lösungsansatz “Noisy Daten”
Binning
> Sortierung der Daten udn EInteilung in BIns (gleiche Anzahl an Werten)
> Angleichung der Werte innerhalb der Bins (Durch ersetzen der Attributwerte durch den Bin Durchschnitt, Median)
Clustering
> Erkennen von Löschen und Ausreißern
Datenreinigung: Umgang mit inkonsistenten Daten
Sammlung von Informationen zu Daten (Metadaten)
> Datentypen, korrekte Wertebereiche des Attributs
> Überladen von Attributen erkennen
> Überprüfung von Konsistenzregeln
Datenreinigung: Data Scrubbing
Normalisierung der Daten > Groß- u. Kleinschreibung > Rechtschreibprüüfung > Ersetzen von Abkürzungen > Zerlegen von zusammengesetzten Attributen Konvertierung > Umrechnen von Einheiten, Währungen
Nenne Sie die drei Arten der Datenredukton
Reduzieren der Attribute
> Prinzipal Component Analyse (PCA)
> Attribut Subset Selektion
Datenreduktion
> Ersetzen der Daten durch kleinere Repräsentanten (Clustering, Historgramme)
Datenkomprimierung
> Einsatz verlustfreier Komprimierung bei der Datenspeicherung
Definition Datentransformation und mögliche Strategien
= Vereinheitlich/ Übersetzung der Daten
Strategien: > Glätten der Daten > Attributerzeugung > Normalisierung Attributwerte > Diskretisierung > Aggregation/Zusammenfassung der Attribute
Was ist die Aufgabe der Normalisierung?
> Maßeinheiten beeinflussen das Analyseergebnis
- kleinere Maßeinheiten => größere Unterschiede der Attributwerte => größere Effekte
Vermeiden dieser Unterschiede durch Normalisierung bzw. Standardisierung
Definition Standardisierung
Benutzung der Standardabweichung und des Durchschnitts zur Normalisierung
> Insbesondere nützlich, wenn Minimum und Maximum nicht bekannt sind bzw. Ausreißer Minimum und Maximum dominieren
Definition Diskretisierung
= Aufteiung von numerischen Attributen in Intervalle
> Verwendung der Intervallbezeichnungen als Attributwert
> Reduzierung Datenmenge
> Vorbereitung für weitere Analyseschritte
Nennen Sie Methoden der Diskretisierung
> Binnung (Unterteilung auf einzelne Bins)
Clustering/Decision Tree
Histogramm Analyse
- Einteilung der Wertebereiche in Bins
- Equal-With Histogramm: Ermittlung der Anzahl Instanzen in den gleich breiten Bins
- Equal-Frequence Histogramm: Ermittlung der Breite der Bins bis Anzahl Instanzen erreicht ist
Binning: Zielmenge der Attribute der Größe nach aufsteigend in INtervalle “ Bins” einteilen. Alle Attributwerte werden dann mit den Repräsentanten des Intervalls ersetzt, in dem sich der Wert befindet. Dieser auch interval label genannte Repräsentationswert ist oft etwa der Durchschnitt/Median.
Bsp.: Kategorisierung Alter: 20-29