Visualization Pipeline Flashcards

1
Q

Was sind die 4 Schritte der Visualization Pipeline?

A
  1. Data Analysis
  2. Filtering
  3. Mapping
  4. Rendering
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Welche In- und Outputs hat der Schritt Data Analysis der Visualization Pipeline?

A

Input: Raw Data
Output: Prepared Data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Welche In- und Outputs hat der Schritt Filtering der Visualization Pipeline?

A

Input: Prepared Data
Output: Focus Data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Welche In- und Outputs hat der Schritt Mapping der Visualization Pipeline?

A

Input: Focus Data
Output: Geometric Data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Welche In- und Outputs hat der Schritt Rendering der Visualization Pipeline?

A

Input: Geometric Data
Output: Image Data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was ist ein Glass Slipper?

A

Die Verwendung einer Visualisierung, die für einen bestimmten und meist komplexen Use Case zugeschnitten wurde für Daten, die nicht dazu passen. Bestenfalls verwirrt dies den User, schlechtestenfalls kommt es zu einer Fehlinterpretation bzw. (bewussten) Täuschung über die Schlüsse, die aus den Daten gezogen werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wofür steht HCL?

A

Hue -> Farbton
Chroma -> Sättigung
Luminance -> Helligkeit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Welche zwei verschiedenen Definitionsweisen der Datenvisualisierung gibt es?

A

Product: beschreibt Datenvisualisierung in Hinblick auf die Interaktion und den Mehrwert für den User (communicate a large amount of information, amplify cognitive performance)

Process: beschreibt Datenvisualisierung in Hinblick auf den Prozess der Visualisierungserstellung (transforms the symbolic into the geometric, a mapping process from computer representations to perceptual representations)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was sind die zwei Achsen des Design Spaces und welche wurden im Kurs besprochen?

A
  1. Declarative - Exploratory
  2. Conceptual - Data-Driven

Nur die datengetriebene Visualisierung war Kursgegenstand.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Welche drei Probleme können bei Rohdaten auftreten, die ein Datapreprocessing notwendig machen?

A
  1. Die Beschaffenheit der Daten ist nicht bekannt (z.B. viele Ausreißer, fehlende Werte)
  2. Die Qualität der Daten ist nicht ausreichend (z.B. verschiedene Schreibweisen, Rechtschreibfehler, keine Konsistenz der Datenpunkte)
  3. Es gibt zu viele Datenpunkte (z.B. Datensets mit über 700k Einträgen -> zu viel Rauschen, um aussagekräftige Visualisierungen zu erstellen)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Welche Verarbeitungsschritte werden im 1. Schritt der Data Analysis durchgeführt?

A
  1. Data Profiling (Analyse der Beschaffenheit der Daten)
  2. Data Wrangling (Fehlende oder falsche Werte korrigieren)
  3. Data Transformation (Datenreduktion und Sampling)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Welche Aspekte des Datenformats sind beim Data Profiling relevant?

A
  • Zeichenkodierung
  • Zahlenformate, Datums- und Zeitformate (ein Alptraum!)
  • Zeitzonen
  • Koordinaten
  • Plausibilität der Daten grob überprüfen
  • Formatierung
  • Einheiten und Ranges (Temperatur-Range ist bspw. bei Celsius, Fahrenheit und Kelvin sehr unterschiedlich)
  • Platzhalter / Nullwerte
  • Konsistenz der Datenpunkte (z.B. bei Sensordaten), siehe auch Folie 51)
  • Topologie der Datenstruktur (z.B. pro Eintrag eine Zeile)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Welche Fragen müssen beim Data Profiling beantwortet werden?

A
  1. Wie viele Datensätze (Zeitraum und Häufigkeit) können genutzt werden?
  2. In welchem Format liegen die Daten vor?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Welche Schritte werden beim Data Wrangling durchgeführt?

A
  1. Fehlende Werte identifizieren und behandeln
  2. Mit Unsicherheiten in den Daten umgehen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wie entstehen Unsicherheiten in den Daten, die durch Data Wrangling behandelt werden?

A
  • Unsicherheiten entstehen durch:
  • Technische oder umweltbedingte Schwankungen (Messfehler oder defekte Sensoren)
  • Menschliche Fehlkategorisierung / Bias
  • Stochastische Fehler (z.B. bei Simulationen in der Biologie)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Welche Strategien der Datenreduktion gibt es?

A
  • Random Sampling: Zufallsauswahl
  • Stratified Sampling: Zufällige Auswahl nach bestimmten Kriterien (z.B. x Studierende per Fakultät proportional zur Anzahl der Studierenden pro Fakultät)
  • Quota Sampling: Nicht-zufällige Auswahl nach Kriterien (z.B. x männliche und x weibliche Studierende gleichmäßig verteilt proportional für jede Fakultät)
  • Hierarchical Clustering: schichtweise Gruppierung von Daten, bei denen die nächsten Datenpunkte schrittweise zu Clustern zusammengefügt werden. Ist bottom-up (von n Clustern zu 1 Cluster) oder top-down (von 1 Cluster bis zu n Clustern) möglich. Zusätzlich kann die Art der Verbindungen gewählt werden: single linkage (nächster Nachbar), complete linkage (entferntester Nachbar) oder average linkage (Durchschnitt aus allen Nachbarn)
17
Q

Welche Formen der Imputation gibt es?

A
  1. Mean Value Imputation -> quantitative Daten
  2. Median Value Imputation -> ordinalskalierte Daten
  3. Mode Value Imputation -> kategorische Daten
  4. Last Observation Carried Forward
  5. Linear Interpolation
  6. Lineare Regression
  7. Durch 0 ersetzen
18
Q

Welche Form der Amputation gibt es?

A
  1. Reihenbasierte Löschung (bei <5% fehlender Daten)
  2. Spaltenbasierte Löschung (bei >40% fehlender Daten)
  3. Imputation (bei mehr als 5, aber weniger als 40% fehlender Daten / unklarer Datenlage)
  4. Pair-wise Deletion (fehlende Werte werden nur bei Analysen weggelassen, die diese Werte einbeziehen -> Problem ist, dass sich der Datensatz über verschiedene Analysen dadurch stark verändern kann)
19
Q

Welche Möglichkeiten der visuellen Analyse fehlender Werte gibt es?

A
  1. Missingness Maps: alle Subdatensätze werden nach gemessener Variable aufgeschlüsselt grafisch dargestellt und codiert (Wert vorhanden / Wert fehlt)
  2. Explicit Encoding: der gesamte Datensatz wird normal visualisiert. Fehlende Werte sind durch explizites Angeben speziell eingefärbt, um sie sichtbar zu machen
20
Q

Welche Quellen für Unsicherheiten in den Daten gibt es?

A
  • Technische oder umweltbedingte Schwankungen (Messfehler oder defekte Sensoren)
  • Menschliche Fehlkategorisierung / Bias
  • Stochastische Fehler (z.B. bei Simulationen in der Biologie)
21
Q

Wie lässt sich das Ergebnis eines Hierarchical Clustering Verfahrens grafisch darstellen und was kann man dabei besonders gut unterscheiden?

A

Hierarchical Clusters können in einem Dendrogramm dargestellt werden. Dabei wird der Effekt verschiedener linkage Arten besonders gut sichtbar.

22
Q

Welches sind die drei wichtigsten Preattentive Clues?

A
  1. Position
  2. Farbe
  3. Größe
23
Q

Welche weiteren Preattentive Clues außer Position, Farbe und Größe gibt es?

A
  • Orientierung
  • Länge
  • Öffnung (z.B. halboffene Kreise)
  • Dichte
  • Gebogenheit
  • Helligkeit
  • Form
24
Q

Welche Gestaltprinzipien gibt es?

A
  • Nähe
  • Ähnlichkeit
  • Umgrenzung
  • Verbindung
  • Kontinuität
  • Symmetrie
  • Figur-Untergrund
  • Öffnung
  • Common Fate (ähnliche Ausrichtung / ähnliche Merkmale)
25
Q

Welche visuellen Biases können bei der Visualisierung auftreten?

A
  1. Verzerrung (z.B. Ebbinghaus oder Müller-Lyer-Täuschung)
  2. Sinus-Verzerrung
  3. Anker-Effekt / Anchoring Effekt -> Veränderung der Wahrnehmung durch zuvor gezeigte Bilder
26
Q

Was sind Marks?

A

Marks sind die geometrischen Elemente einer Visualisierung. 0-dimensionale Marks sind Punkte, 1-dimensionale Marks sind Linien, 2-dimensionale Marks sind Flächen, 3-dimensionale Marks sind Körper.

27
Q

Was sind Channel?

A

Channels sind die graphischen Eigenschaften der Marks. Man unterscheidet zwischen Magnitude
Channels für quantitative and ordinale Daten (z.B. Position, Größe/Länge, Farbsättigung, Luminanz) und
Identity Channels für kategorische Daten (z.B. Farbwert, Form).

28
Q

Welches sind die drei wichtigsten Kriterien beim Mapping in Hinblick auf die Skalierung der Daten (nominal, ordinal, kardinal / metrisch)?

A
  1. Ausdrucksstärke / Expressiveness: wie gut bildet die gewählte Darstellung die Beschaffenheit der Daten ab?
  2. Effektivität / Effectiveness: wie gut passt die Darstellung zur Einfachheit der Wahrnehmungsaufgaben?
  3. Angemessenheit / Appropriateness: halten sich Aufwand zur Erstellung der Visualisierung und Benefit durch die Betrachtung der Visualisierung im Gleichgewicht?
29
Q

Was sind Nachteile von 3D Visualisierungen?

A
  • Verdeckung
  • Perspektivische Verzerrung
  • Non-anchored Points
  • Auswahl einzelner Datenpunkte oder Bereiche ist sehr schwierig
  • Technische Probleme (z.B. unterschiedliches Font Rendering)
30
Q

Was sind non-anchored points?

A

Non-anchored points sind ein Nachteil der 3D Visualisierung. Datenpunkte sind dabei so weit von den drei Achsen entfernt, dass ihre Werte nicht mehr abgelesen werden können

31
Q

Wie lautet eine gute Alternative zu 3D Visualisierungen wenn Mehrdimensionalität eine Rolle spielt?

A

2.5D Visualisierungen sind entweder nur im Attributraum oder nur im Referenzraum 3D. D.h. entweder sind die Skalen, Koordinatensysteme, Karten etc… 3D oder die Attribute. So bleiben Lesbarkeit und Orientierung erhalten.

32
Q

Was ist bei Farbskalen in Hinblick auf ihre Luminanz zu beachten?

A

Luminanz sollte immer monoton steigen, um sicherzustellen, dass Personen mit eingeschränkter Sehfähigkeit (z.B. rot-grün-Schwäche) die Abstufungen unterscheiden können.

33
Q

Wann ist eine Single-Hue, wann eine Multi-Hue Farbskala angebracht?

A

Single-Hue: wenn die hauptsächliche Wahrnehmungsaufgabe des Users das Unterscheiden von Ausprägungen eines Attributs ist
Multi-Hue: wenn die hauptsächliche Wahrnehmungsaufgabe das Unterscheiden zwischen verschiedenen Attributen ist

34
Q

Was sind Beispiele für beliebte Multi-Hue Farbskalen?

A
  • CubeHelix
  • Parula (copyrighted)
  • CubicYF
  • Viridis
35
Q

Was ist die wichtigste Regel beim Labelling?

A

Direkte Label sollten Legenden immer vorgezogen werden wenn möglich

36
Q

Welche drei Labeltypen gibt es?

A
  • Plain
  • Circular
  • Eccentric
37
Q

Wie funktioniert der particle-based labelling Algorithmus?

A
  1. Stufe: versuche ein plain label zu platzieren, mit Hilfe des 4-Positionen-Modells / 8-Positionen-Modells / Sliders
  2. Stufe: wenn ein plain label nicht gesetzt werden kann, versuche ein eccentric label zu platzieren, indem du das Label entlang einer Spirale bewegst, bis genug Platz verfügbar ist
38
Q

Was ist bei Fonts und Labels zu beachten?

A
  1. Keine Serifen, da Serifen nur bei längeren Texten (Romane etc) verwendet werden sollten
  2. Keine Railway Fonts, da dort die Anordnung von Zahlen außerhalb der line-height erfolgt
39
Q

Was kann man mit Sketches oder gezeichneten Renderings ausdrücken?

A

Sketches oder gezeichnete Renderings können genutzt werden, um darzustellen, dass die Visualisierung lediglich ein Prototyp ist oder auch, um Unsicherheiten in der Datenbasis oder den Conclusions darzustellen