Visualization Pipeline Flashcards
Was sind die 4 Schritte der Visualization Pipeline?
- Data Analysis
- Filtering
- Mapping
- Rendering
Welche In- und Outputs hat der Schritt Data Analysis der Visualization Pipeline?
Input: Raw Data
Output: Prepared Data
Welche In- und Outputs hat der Schritt Filtering der Visualization Pipeline?
Input: Prepared Data
Output: Focus Data
Welche In- und Outputs hat der Schritt Mapping der Visualization Pipeline?
Input: Focus Data
Output: Geometric Data
Welche In- und Outputs hat der Schritt Rendering der Visualization Pipeline?
Input: Geometric Data
Output: Image Data
Was ist ein Glass Slipper?
Die Verwendung einer Visualisierung, die für einen bestimmten und meist komplexen Use Case zugeschnitten wurde für Daten, die nicht dazu passen. Bestenfalls verwirrt dies den User, schlechtestenfalls kommt es zu einer Fehlinterpretation bzw. (bewussten) Täuschung über die Schlüsse, die aus den Daten gezogen werden.
Wofür steht HCL?
Hue -> Farbton
Chroma -> Sättigung
Luminance -> Helligkeit
Welche zwei verschiedenen Definitionsweisen der Datenvisualisierung gibt es?
Product: beschreibt Datenvisualisierung in Hinblick auf die Interaktion und den Mehrwert für den User (communicate a large amount of information, amplify cognitive performance)
Process: beschreibt Datenvisualisierung in Hinblick auf den Prozess der Visualisierungserstellung (transforms the symbolic into the geometric, a mapping process from computer representations to perceptual representations)
Was sind die zwei Achsen des Design Spaces und welche wurden im Kurs besprochen?
- Declarative - Exploratory
- Conceptual - Data-Driven
Nur die datengetriebene Visualisierung war Kursgegenstand.
Welche drei Probleme können bei Rohdaten auftreten, die ein Datapreprocessing notwendig machen?
- Die Beschaffenheit der Daten ist nicht bekannt (z.B. viele Ausreißer, fehlende Werte)
- Die Qualität der Daten ist nicht ausreichend (z.B. verschiedene Schreibweisen, Rechtschreibfehler, keine Konsistenz der Datenpunkte)
- Es gibt zu viele Datenpunkte (z.B. Datensets mit über 700k Einträgen -> zu viel Rauschen, um aussagekräftige Visualisierungen zu erstellen)
Welche Verarbeitungsschritte werden im 1. Schritt der Data Analysis durchgeführt?
- Data Profiling (Analyse der Beschaffenheit der Daten)
- Data Wrangling (Fehlende oder falsche Werte korrigieren)
- Data Transformation (Datenreduktion und Sampling)
Welche Aspekte des Datenformats sind beim Data Profiling relevant?
- Zeichenkodierung
- Zahlenformate, Datums- und Zeitformate (ein Alptraum!)
- Zeitzonen
- Koordinaten
- Plausibilität der Daten grob überprüfen
- Formatierung
- Einheiten und Ranges (Temperatur-Range ist bspw. bei Celsius, Fahrenheit und Kelvin sehr unterschiedlich)
- Platzhalter / Nullwerte
- Konsistenz der Datenpunkte (z.B. bei Sensordaten), siehe auch Folie 51)
- Topologie der Datenstruktur (z.B. pro Eintrag eine Zeile)
Welche Fragen müssen beim Data Profiling beantwortet werden?
- Wie viele Datensätze (Zeitraum und Häufigkeit) können genutzt werden?
- In welchem Format liegen die Daten vor?
Welche Schritte werden beim Data Wrangling durchgeführt?
- Fehlende Werte identifizieren und behandeln
- Mit Unsicherheiten in den Daten umgehen
Wie entstehen Unsicherheiten in den Daten, die durch Data Wrangling behandelt werden?
- Unsicherheiten entstehen durch:
- Technische oder umweltbedingte Schwankungen (Messfehler oder defekte Sensoren)
- Menschliche Fehlkategorisierung / Bias
- Stochastische Fehler (z.B. bei Simulationen in der Biologie)