2 & 3 Datenanalyse/Data Mining Flashcards
Datenanalyse Allgemein
> Techniken zur Konsolidierung, Analyse und Bereitstellung der Daten zur Entscheidungsunterstützung
Basiert meist auf Data Warehouse
Teil des Knowledge Discovery Prozess in Database (KDD)
Data Warehouse
(Datenquell für)
Typische Applikationen die auf DWH basieren?
Datenquell für:
> komplexe Analysen
> KDD
> Entscheidungsfindung
Typische Applikationen die auf DWH basieren > Online Analytical Prozessing (OLAP) > Decision-Support-System (DSS) > Management Information Systems (MIS) > Data Mining (DM)
OLAP (Online Analytical Processing)
=> solche Anwendungen bereiten die Daten in einem DW auf (analysieren oder bereiten visuell auf)
Methoden:
> Multidimensionale konzeptionelle Sichten
> Unlimitierte Dimensionen und Aggregationsstufen
> Interaktive Analayse anhand typischer Interaktionen
> Slice, Dice, Roll-Up, Drill-Down
Definition Decision-Support-System (DSS)
= Entscheidungen bei schlecht strukturierten Problemen und unvollständigen Daten vorbereiten (DSS)
> Flexibler EInsatz
> Modellgestützt oder Datengestützt
(ermitteln für menschliche Etnscheidungsträger für operative und strat. Aufgaben relevante Infos, aufbereiten und stellen diese übersichtlich zusammen
Definition Data Mining
Beispiel für Große Datenmengen
= Prozess zum entdecken interessanter Muster und Erkenntnisse von großen Datenmengen
Beispiele
- Geschäftswelt: Web, E-Commerce, Sensoren
- Wissenschaft: Bioninformatik, wissenschaftl. Simulationen
- Gesellschaft: Nachrichten, YouTube, Twitter
Data Mining = Automatische Analyse von riesigen Datenmengen
Data Warehouse & Data Mining
> DWH enthhält historische Daten zur Entscheidungsunterstützung
NUtzung des DWH als Datenquelle für Data Mining
Gewinnung von neuen Erkenntnissen aus vorhandenen Daten in DWH
Phasen des Knowledge Discovery (KDD) Prozess
1, Datenauswahl
2. Datenreinigung/Datenanreicheurng/Transformation
(Teil des ETL-Prozesses im DWH (Datenvorbereitung im DWH)
3. Data Mining
4. Datenvisualisierung (Integration der Ergebnisse zurück ins Data Warehouse
Ziel Data MIning/Knowledge Discovery in Database
- Vorhersagen (Attributwert in Zukunft vorhersagen)
- Identifikation (Erkennen eines Gegenstands/Aktivität)
- Klassifikation (Kategoriesierung/Klassifizierung Daten)
- Optimierung (Optimierung Nutzen von besch. Ressourc)
Nenne Sie 4 Datenarten und jeweils 2 Beispiele
Strukturierte Daten - relationale Daten/Tabellen - CSV Semistrukturierte Daten - JSON, XML, HTML Unstrukturierte Daten - Dokumente, Textdaten, Nachrichten Datensätze - Dokumente - relationale Daten/Tabellen
Kategorisierung der Attribute (4 Kategorien)?
nominal (keine Ordnung)
- Bsp.: blau, rot
ordinal
- Bsp.: sehr gut, gut
Diskret - Zählergebnisse Bsp.: Anzahl Teilnehmer, Räume Stetig (stetige Werte/Messungen) Bsp.: Zeit, Gewicht, Länge, Temperatur
Datenverständnis entwickeln (Beschreibung der Daten)
> Lagemaße, Streuungsmaße
Verteilungscharakteristiken
- Median, Min, Max, Varianz, Quantil
Nennen Sie die drei Lagemaße
=> Durchschnitt
=> Median
=> Modus (Wert der am häufigsten vorkommt)
Ziel und Aufgabe der Datenvisualisierung
= Effiziente und klare Vermittlung der Daten an Benutzer durch graphische Repräsentation
Ziele:
> Einblicke in den Datenraum erhalten
> Gewährung qualitativer Überblick großer Datenmegngen
> Suchen von Mustern, Trends, Strukturen, UNregelmäßigkeiten, Beziehungen in den Daten
> Lokalisierung interesanter Regionen für genauere Analyse
> Visueller Beweir von Zusammenhängen
Was gibt die Standardabweichung an?
wie weit die einzelnen Messwerte im Durchschnitt von dem Erwartungswert (mittelwert) entfernt sind.
Berechnet aus der Quadratwurzel der Varianz
Nennen Sie verschiedene Visualisierungstechniken
Bog Plots/Quantil Plots
= Darstellung Verteilungen & Lagemaße für einzelne Attribute
Histogramme
= Darstellung der Häufigkeiten von Wertebereichen eines Attributs
(Welche Instanzen fallen in den jeweiligen Wertebereich?)
- Density/Heat Maps
- Scatter Plots/Scatter Plots 3D
- Bubble Chart
- Scatter Plott Matrix
- Parallel Coordinates
= n-Dimensionale Daten werden durch n Achsen dargestellt
= jede Achse kann auf den lokalen Wertebereich (Min, Max) ihrer Dimensionen skaliert werden
= Ordnung der Dimensionen wichtig