Visualization Pipeline Flashcards
Was sind die 4 Schritte der Visualization Pipeline?
- Data Analysis
- Filtering
- Mapping
- Rendering
Welche In- und Outputs hat der Schritt Data Analysis der Visualization Pipeline?
Input: Raw Data
Output: Prepared Data
Welche In- und Outputs hat der Schritt Filtering der Visualization Pipeline?
Input: Prepared Data
Output: Focus Data
Welche In- und Outputs hat der Schritt Mapping der Visualization Pipeline?
Input: Focus Data
Output: Geometric Data
Welche In- und Outputs hat der Schritt Rendering der Visualization Pipeline?
Input: Geometric Data
Output: Image Data
Was ist ein Glass Slipper?
Die Verwendung einer Visualisierung, die für einen bestimmten und meist komplexen Use Case zugeschnitten wurde für Daten, die nicht dazu passen. Bestenfalls verwirrt dies den User, schlechtestenfalls kommt es zu einer Fehlinterpretation bzw. (bewussten) Täuschung über die Schlüsse, die aus den Daten gezogen werden.
Wofür steht HCL?
Hue -> Farbton
Chroma -> Sättigung
Luminance -> Helligkeit
Welche zwei verschiedenen Definitionsweisen der Datenvisualisierung gibt es?
Product: beschreibt Datenvisualisierung in Hinblick auf die Interaktion und den Mehrwert für den User (communicate a large amount of information, amplify cognitive performance)
Process: beschreibt Datenvisualisierung in Hinblick auf den Prozess der Visualisierungserstellung (transforms the symbolic into the geometric, a mapping process from computer representations to perceptual representations)
Was sind die zwei Achsen des Design Spaces und welche wurden im Kurs besprochen?
- Declarative - Exploratory
- Conceptual - Data-Driven
Nur die datengetriebene Visualisierung war Kursgegenstand.
Welche drei Probleme können bei Rohdaten auftreten, die ein Datapreprocessing notwendig machen?
- Die Beschaffenheit der Daten ist nicht bekannt (z.B. viele Ausreißer, fehlende Werte)
- Die Qualität der Daten ist nicht ausreichend (z.B. verschiedene Schreibweisen, Rechtschreibfehler, keine Konsistenz der Datenpunkte)
- Es gibt zu viele Datenpunkte (z.B. Datensets mit über 700k Einträgen -> zu viel Rauschen, um aussagekräftige Visualisierungen zu erstellen)
Welche Verarbeitungsschritte werden im 1. Schritt der Data Analysis durchgeführt?
- Data Profiling (Analyse der Beschaffenheit der Daten)
- Data Wrangling (Fehlende oder falsche Werte korrigieren)
- Data Transformation (Datenreduktion und Sampling)
Welche Aspekte des Datenformats sind beim Data Profiling relevant?
- Zeichenkodierung
- Zahlenformate, Datums- und Zeitformate (ein Alptraum!)
- Zeitzonen
- Koordinaten
- Plausibilität der Daten grob überprüfen
- Formatierung
- Einheiten und Ranges (Temperatur-Range ist bspw. bei Celsius, Fahrenheit und Kelvin sehr unterschiedlich)
- Platzhalter / Nullwerte
- Konsistenz der Datenpunkte (z.B. bei Sensordaten), siehe auch Folie 51)
- Topologie der Datenstruktur (z.B. pro Eintrag eine Zeile)
Welche Fragen müssen beim Data Profiling beantwortet werden?
- Wie viele Datensätze (Zeitraum und Häufigkeit) können genutzt werden?
- In welchem Format liegen die Daten vor?
Welche Schritte werden beim Data Wrangling durchgeführt?
- Fehlende Werte identifizieren und behandeln
- Mit Unsicherheiten in den Daten umgehen
Wie entstehen Unsicherheiten in den Daten, die durch Data Wrangling behandelt werden?
- Unsicherheiten entstehen durch:
- Technische oder umweltbedingte Schwankungen (Messfehler oder defekte Sensoren)
- Menschliche Fehlkategorisierung / Bias
- Stochastische Fehler (z.B. bei Simulationen in der Biologie)
Welche Strategien der Datenreduktion gibt es?
- Random Sampling: Zufallsauswahl
- Stratified Sampling: Zufällige Auswahl nach bestimmten Kriterien (z.B. x Studierende per Fakultät proportional zur Anzahl der Studierenden pro Fakultät)
- Quota Sampling: Nicht-zufällige Auswahl nach Kriterien (z.B. x männliche und x weibliche Studierende gleichmäßig verteilt proportional für jede Fakultät)
- Hierarchical Clustering: schichtweise Gruppierung von Daten, bei denen die nächsten Datenpunkte schrittweise zu Clustern zusammengefügt werden. Ist bottom-up (von n Clustern zu 1 Cluster) oder top-down (von 1 Cluster bis zu n Clustern) möglich. Zusätzlich kann die Art der Verbindungen gewählt werden: single linkage (nächster Nachbar), complete linkage (entferntester Nachbar) oder average linkage (Durchschnitt aus allen Nachbarn)
Welche Formen der Imputation gibt es?
- Mean Value Imputation -> quantitative Daten
- Median Value Imputation -> ordinalskalierte Daten
- Mode Value Imputation -> kategorische Daten
- Last Observation Carried Forward
- Linear Interpolation
- Lineare Regression
- Durch 0 ersetzen
Welche Form der Amputation gibt es?
- Reihenbasierte Löschung (bei <5% fehlender Daten)
- Spaltenbasierte Löschung (bei >40% fehlender Daten)
- Imputation (bei mehr als 5, aber weniger als 40% fehlender Daten / unklarer Datenlage)
- Pair-wise Deletion (fehlende Werte werden nur bei Analysen weggelassen, die diese Werte einbeziehen -> Problem ist, dass sich der Datensatz über verschiedene Analysen dadurch stark verändern kann)
Welche Möglichkeiten der visuellen Analyse fehlender Werte gibt es?
- Missingness Maps: alle Subdatensätze werden nach gemessener Variable aufgeschlüsselt grafisch dargestellt und codiert (Wert vorhanden / Wert fehlt)
- Explicit Encoding: der gesamte Datensatz wird normal visualisiert. Fehlende Werte sind durch explizites Angeben speziell eingefärbt, um sie sichtbar zu machen
Welche Quellen für Unsicherheiten in den Daten gibt es?
- Technische oder umweltbedingte Schwankungen (Messfehler oder defekte Sensoren)
- Menschliche Fehlkategorisierung / Bias
- Stochastische Fehler (z.B. bei Simulationen in der Biologie)
Wie lässt sich das Ergebnis eines Hierarchical Clustering Verfahrens grafisch darstellen und was kann man dabei besonders gut unterscheiden?
Hierarchical Clusters können in einem Dendrogramm dargestellt werden. Dabei wird der Effekt verschiedener linkage Arten besonders gut sichtbar.
Welches sind die drei wichtigsten Preattentive Clues?
- Position
- Farbe
- Größe
Welche weiteren Preattentive Clues außer Position, Farbe und Größe gibt es?
- Orientierung
- Länge
- Öffnung (z.B. halboffene Kreise)
- Dichte
- Gebogenheit
- Helligkeit
- Form
Welche Gestaltprinzipien gibt es?
- Nähe
- Ähnlichkeit
- Umgrenzung
- Verbindung
- Kontinuität
- Symmetrie
- Figur-Untergrund
- Öffnung
- Common Fate (ähnliche Ausrichtung / ähnliche Merkmale)