2 & 3 Datenanalyse/Data Mining Flashcards by Patrick Gutting

Datenanalyse Allgemein

> Techniken zur Konsolidierung, Analyse und Bereitstellung der Daten zur Entscheidungsunterstützung
Basiert meist auf Data Warehouse
Teil des Knowledge Discovery Prozess in Database (KDD)

How well did you know this?

Not at all

Perfectly

Data Warehouse

(Datenquell für)

Typische Applikationen die auf DWH basieren?

Datenquell für:
> komplexe Analysen
> KDD
> Entscheidungsfindung

Typische Applikationen die auf DWH basieren
> Online Analytical Prozessing (OLAP)
> Decision-Support-System (DSS)
> Management Information Systems (MIS)
> Data Mining (DM)

How well did you know this?

Not at all

Perfectly

OLAP (Online Analytical Processing)

=> solche Anwendungen bereiten die Daten in einem DW auf (analysieren oder bereiten visuell auf)

Methoden:
> Multidimensionale konzeptionelle Sichten
> Unlimitierte Dimensionen und Aggregationsstufen
> Interaktive Analayse anhand typischer Interaktionen
> Slice, Dice, Roll-Up, Drill-Down

How well did you know this?

Not at all

Perfectly

Definition Decision-Support-System (DSS)

= Entscheidungen bei schlecht strukturierten Problemen und unvollständigen Daten vorbereiten (DSS)
> Flexibler EInsatz
> Modellgestützt oder Datengestützt

(ermitteln für menschliche Etnscheidungsträger für operative und strat. Aufgaben relevante Infos, aufbereiten und stellen diese übersichtlich zusammen

How well did you know this?

Not at all

Perfectly

Definition Data Mining

Beispiel für Große Datenmengen

= Prozess zum entdecken interessanter Muster und Erkenntnisse von großen Datenmengen

Beispiele

Geschäftswelt: Web, E-Commerce, Sensoren
Wissenschaft: Bioninformatik, wissenschaftl. Simulationen
Gesellschaft: Nachrichten, YouTube, Twitter

Data Mining = Automatische Analyse von riesigen Datenmengen

How well did you know this?

Not at all

Perfectly

Data Warehouse & Data Mining

> DWH enthhält historische Daten zur Entscheidungsunterstützung
NUtzung des DWH als Datenquelle für Data Mining
Gewinnung von neuen Erkenntnissen aus vorhandenen Daten in DWH

How well did you know this?

Not at all

Perfectly

Phasen des Knowledge Discovery (KDD) Prozess

1, Datenauswahl
2. Datenreinigung/Datenanreicheurng/Transformation
(Teil des ETL-Prozesses im DWH (Datenvorbereitung im DWH)
3. Data Mining
4. Datenvisualisierung (Integration der Ergebnisse zurück ins Data Warehouse

How well did you know this?

Not at all

Perfectly

Ziel Data MIning/Knowledge Discovery in Database

Vorhersagen (Attributwert in Zukunft vorhersagen)
Identifikation (Erkennen eines Gegenstands/Aktivität)
Klassifikation (Kategoriesierung/Klassifizierung Daten)
Optimierung (Optimierung Nutzen von besch. Ressourc)

How well did you know this?

Not at all

Perfectly

Nenne Sie 4 Datenarten und jeweils 2 Beispiele

Strukturierte Daten
- relationale Daten/Tabellen - CSV
Semistrukturierte Daten
- JSON, XML, HTML
Unstrukturierte Daten
- Dokumente, Textdaten, Nachrichten
Datensätze
- Dokumente
- relationale Daten/Tabellen

How well did you know this?

Not at all

Perfectly

Kategorisierung der Attribute (4 Kategorien)?

nominal (keine Ordnung)
- Bsp.: blau, rot

ordinal
- Bsp.: sehr gut, gut

Diskret
- Zählergebnisse
  Bsp.: Anzahl Teilnehmer, Räume
Stetig (stetige Werte/Messungen)
  Bsp.: Zeit, Gewicht, Länge, Temperatur

How well did you know this?

Not at all

Perfectly

Datenverständnis entwickeln (Beschreibung der Daten)

> Lagemaße, Streuungsmaße
Verteilungscharakteristiken
- Median, Min, Max, Varianz, Quantil

How well did you know this?

Not at all

Perfectly

Nennen Sie die drei Lagemaße

=> Durchschnitt
=> Median
=> Modus (Wert der am häufigsten vorkommt)

How well did you know this?

Not at all

Perfectly

Ziel und Aufgabe der Datenvisualisierung

= Effiziente und klare Vermittlung der Daten an Benutzer durch graphische Repräsentation

Ziele:
> Einblicke in den Datenraum erhalten
> Gewährung qualitativer Überblick großer Datenmegngen
> Suchen von Mustern, Trends, Strukturen, UNregelmäßigkeiten, Beziehungen in den Daten
> Lokalisierung interesanter Regionen für genauere Analyse
> Visueller Beweir von Zusammenhängen

How well did you know this?

Not at all

Perfectly

Was gibt die Standardabweichung an?

wie weit die einzelnen Messwerte im Durchschnitt von dem Erwartungswert (mittelwert) entfernt sind.
Berechnet aus der Quadratwurzel der Varianz

How well did you know this?

Not at all

Perfectly

Nennen Sie verschiedene Visualisierungstechniken

Bog Plots/Quantil Plots
= Darstellung Verteilungen & Lagemaße für einzelne Attribute

Histogramme
= Darstellung der Häufigkeiten von Wertebereichen eines Attributs
(Welche Instanzen fallen in den jeweiligen Wertebereich?)

Density/Heat Maps
Scatter Plots/Scatter Plots 3D
Bubble Chart
Scatter Plott Matrix
Parallel Coordinates
= n-Dimensionale Daten werden durch n Achsen dargestellt
= jede Achse kann auf den lokalen Wertebereich (Min, Max) ihrer Dimensionen skaliert werden
= Ordnung der Dimensionen wichtig

How well did you know this?

Not at all

Perfectly

Was ist der Kontext der Datenvorverbereitung?

Eigenschaften realer Daten:
=> Unvollständig
=> Noisy (ungenaue Daten)
=> riesige Datenmengen
(garbage in garbage out)

Datenverarbeitung  = Techniken zur Verbesserung der Datenqualität
> Datenreinigung/Data Cleaning
> Datenintegration
> Datenreduktion
> Datentransformation

Definition Datenqualität?

3 Qualitätskriterien?

= Eignung der Daten für ihren vorgesehenen Zweck (fitness for use)

Qualitätskriterien:
Genauigkeit, Vollständigkeit, Konsistenz

Nennen Sie Gründe für schlechte Datenqualität

keine Validierung im UI
Virus
veraltete Daten
Fehler bei Datenerfassung (Feld zu kurz)
keine Qualitätsprüfung beim festschreiben der Daten
nicht gut modellierte Daten/Datenmoell
Datenkonvertierungsfehler

Der Ablauf bei der Datenvorverarbeitung

Datenreinigung
- fehlende Werte einsetzen, Ausreißer löschen, Inkonsistenzen auflösen
Datenintegration
- Vereinigung mehrerer Datenquellen
Datenreduktion
- Dimensionen/Datensätze reduzieren
Datentransformation
- Vereinheitlichung/Übersetzung der Daten

Mit welchen Problemen befasst sich die Datenreinigung?

=> Fehlende Attribute/Werte
=> noisy/ungenaue Daten
=> Inkonsistente Daten
=> Data Scrubbing

Datenreinigung: Lösungsansatz bei Fehlenden Attributen

> Ignorieren der Instanz z.B. fehlender Zielvariable
Manuelles EInfügen der Werte
Einfügen eines Defaultwerts
Median/Durchschnitt des Attributs einfügen oder der Klasse der Instanz
wahrscheinlcihsten Wert einfügen

Datenreinigung: Lösungsansatz “Noisy Daten”

Binning
> Sortierung der Daten udn EInteilung in BIns (gleiche Anzahl an Werten)
> Angleichung der Werte innerhalb der Bins (Durch ersetzen der Attributwerte durch den Bin Durchschnitt, Median)

Clustering
> Erkennen von Löschen und Ausreißern

Datenreinigung: Umgang mit inkonsistenten Daten

Sammlung von Informationen zu Daten (Metadaten)
> Datentypen, korrekte Wertebereiche des Attributs
> Überladen von Attributen erkennen
> Überprüfung von Konsistenzregeln

Datenreinigung: Data Scrubbing

Normalisierung der Daten
> Groß- u. Kleinschreibung
> Rechtschreibprüüfung
> Ersetzen von Abkürzungen
> Zerlegen von zusammengesetzten Attributen
Konvertierung
> Umrechnen von Einheiten, Währungen

Nenne Sie die drei Arten der Datenredukton

Reduzieren der Attribute > Prinzipal Component Analyse (PCA) > Attribut Subset Selektion Datenreduktion > Ersetzen der Daten durch kleinere Repräsentanten (Clustering, Historgramme) Datenkomprimierung > Einsatz verlustfreier Komprimierung bei der Datenspeicherung

Definition Datentransformation und mögliche Strategien

= Vereinheitlich/ Übersetzung der Daten ``` Strategien: > Glätten der Daten > Attributerzeugung > Normalisierung Attributwerte > Diskretisierung > Aggregation/Zusammenfassung der Attribute ```

Was ist die Aufgabe der Normalisierung?

> Maßeinheiten beeinflussen das Analyseergebnis - kleinere Maßeinheiten => größere Unterschiede der Attributwerte => größere Effekte > Vermeiden dieser Unterschiede durch Normalisierung bzw. Standardisierung

Definition Standardisierung

Benutzung der Standardabweichung und des Durchschnitts zur Normalisierung > Insbesondere nützlich, wenn Minimum und Maximum nicht bekannt sind bzw. Ausreißer Minimum und Maximum dominieren

Definition Diskretisierung

= Aufteiung von numerischen Attributen in Intervalle > Verwendung der Intervallbezeichnungen als Attributwert > Reduzierung Datenmenge > Vorbereitung für weitere Analyseschritte

Nennen Sie Methoden der Diskretisierung

> Binnung (Unterteilung auf einzelne Bins) > Clustering/Decision Tree > Histogramm Analyse - Einteilung der Wertebereiche in Bins - Equal-With Histogramm: Ermittlung der Anzahl Instanzen in den gleich breiten Bins - Equal-Frequence Histogramm: Ermittlung der Breite der Bins bis Anzahl Instanzen erreicht ist Binning: Zielmenge der Attribute der Größe nach aufsteigend in INtervalle " Bins" einteilen. Alle Attributwerte werden dann mit den Repräsentanten des Intervalls ersetzt, in dem sich der Wert befindet. Dieser auch interval label genannte Repräsentationswert ist oft etwa der Durchschnitt/Median. Bsp.: Kategorisierung Alter: 20-29