Visualization Pipeline Flashcards by Anna Hoege

Was sind die 4 Schritte der Visualization Pipeline?

Data Analysis
Filtering
Mapping
Rendering

How well did you know this?

Not at all

Perfectly

Welche In- und Outputs hat der Schritt Data Analysis der Visualization Pipeline?

Input: Raw Data
Output: Prepared Data

How well did you know this?

Not at all

Perfectly

Welche In- und Outputs hat der Schritt Filtering der Visualization Pipeline?

Input: Prepared Data
Output: Focus Data

How well did you know this?

Not at all

Perfectly

Welche In- und Outputs hat der Schritt Mapping der Visualization Pipeline?

Input: Focus Data
Output: Geometric Data

How well did you know this?

Not at all

Perfectly

Welche In- und Outputs hat der Schritt Rendering der Visualization Pipeline?

Input: Geometric Data
Output: Image Data

How well did you know this?

Not at all

Perfectly

Was ist ein Glass Slipper?

Die Verwendung einer Visualisierung, die für einen bestimmten und meist komplexen Use Case zugeschnitten wurde für Daten, die nicht dazu passen. Bestenfalls verwirrt dies den User, schlechtestenfalls kommt es zu einer Fehlinterpretation bzw. (bewussten) Täuschung über die Schlüsse, die aus den Daten gezogen werden.

How well did you know this?

Not at all

Perfectly

Wofür steht HCL?

Hue -> Farbton
Chroma -> Sättigung
Luminance -> Helligkeit

How well did you know this?

Not at all

Perfectly

Welche zwei verschiedenen Definitionsweisen der Datenvisualisierung gibt es?

Product: beschreibt Datenvisualisierung in Hinblick auf die Interaktion und den Mehrwert für den User (communicate a large amount of information, amplify cognitive performance)

Process: beschreibt Datenvisualisierung in Hinblick auf den Prozess der Visualisierungserstellung (transforms the symbolic into the geometric, a mapping process from computer representations to perceptual representations)

How well did you know this?

Not at all

Perfectly

Was sind die zwei Achsen des Design Spaces und welche wurden im Kurs besprochen?

Declarative - Exploratory
Conceptual - Data-Driven

Nur die datengetriebene Visualisierung war Kursgegenstand.

How well did you know this?

Not at all

Perfectly

Welche drei Probleme können bei Rohdaten auftreten, die ein Datapreprocessing notwendig machen?

Die Beschaffenheit der Daten ist nicht bekannt (z.B. viele Ausreißer, fehlende Werte)
Die Qualität der Daten ist nicht ausreichend (z.B. verschiedene Schreibweisen, Rechtschreibfehler, keine Konsistenz der Datenpunkte)
Es gibt zu viele Datenpunkte (z.B. Datensets mit über 700k Einträgen -> zu viel Rauschen, um aussagekräftige Visualisierungen zu erstellen)

How well did you know this?

Not at all

Perfectly

Welche Verarbeitungsschritte werden im 1. Schritt der Data Analysis durchgeführt?

Data Profiling (Analyse der Beschaffenheit der Daten)
Data Wrangling (Fehlende oder falsche Werte korrigieren)
Data Transformation (Datenreduktion und Sampling)

How well did you know this?

Not at all

Perfectly

Welche Aspekte des Datenformats sind beim Data Profiling relevant?

Zeichenkodierung
Zahlenformate, Datums- und Zeitformate (ein Alptraum!)
Zeitzonen
Koordinaten
Plausibilität der Daten grob überprüfen
Formatierung
Einheiten und Ranges (Temperatur-Range ist bspw. bei Celsius, Fahrenheit und Kelvin sehr unterschiedlich)
Platzhalter / Nullwerte
Konsistenz der Datenpunkte (z.B. bei Sensordaten), siehe auch Folie 51)
Topologie der Datenstruktur (z.B. pro Eintrag eine Zeile)

How well did you know this?

Not at all

Perfectly

Welche Fragen müssen beim Data Profiling beantwortet werden?

Wie viele Datensätze (Zeitraum und Häufigkeit) können genutzt werden?
In welchem Format liegen die Daten vor?

How well did you know this?

Not at all

Perfectly

Welche Schritte werden beim Data Wrangling durchgeführt?

Fehlende Werte identifizieren und behandeln
Mit Unsicherheiten in den Daten umgehen

How well did you know this?

Not at all

Perfectly

Wie entstehen Unsicherheiten in den Daten, die durch Data Wrangling behandelt werden?

Unsicherheiten entstehen durch:
Technische oder umweltbedingte Schwankungen (Messfehler oder defekte Sensoren)
Menschliche Fehlkategorisierung / Bias
Stochastische Fehler (z.B. bei Simulationen in der Biologie)

How well did you know this?

Not at all

Perfectly

Welche Strategien der Datenreduktion gibt es?

Random Sampling: Zufallsauswahl
Stratified Sampling: Zufällige Auswahl nach bestimmten Kriterien (z.B. x Studierende per Fakultät proportional zur Anzahl der Studierenden pro Fakultät)
Quota Sampling: Nicht-zufällige Auswahl nach Kriterien (z.B. x männliche und x weibliche Studierende gleichmäßig verteilt proportional für jede Fakultät)
Hierarchical Clustering: schichtweise Gruppierung von Daten, bei denen die nächsten Datenpunkte schrittweise zu Clustern zusammengefügt werden. Ist bottom-up (von n Clustern zu 1 Cluster) oder top-down (von 1 Cluster bis zu n Clustern) möglich. Zusätzlich kann die Art der Verbindungen gewählt werden: single linkage (nächster Nachbar), complete linkage (entferntester Nachbar) oder average linkage (Durchschnitt aus allen Nachbarn)

Welche Formen der Imputation gibt es?

Mean Value Imputation -> quantitative Daten
Median Value Imputation -> ordinalskalierte Daten
Mode Value Imputation -> kategorische Daten
Last Observation Carried Forward
Linear Interpolation
Lineare Regression
Durch 0 ersetzen

Welche Form der Amputation gibt es?

Reihenbasierte Löschung (bei <5% fehlender Daten)
Spaltenbasierte Löschung (bei >40% fehlender Daten)
Imputation (bei mehr als 5, aber weniger als 40% fehlender Daten / unklarer Datenlage)
Pair-wise Deletion (fehlende Werte werden nur bei Analysen weggelassen, die diese Werte einbeziehen -> Problem ist, dass sich der Datensatz über verschiedene Analysen dadurch stark verändern kann)

Welche Möglichkeiten der visuellen Analyse fehlender Werte gibt es?

Missingness Maps: alle Subdatensätze werden nach gemessener Variable aufgeschlüsselt grafisch dargestellt und codiert (Wert vorhanden / Wert fehlt)
Explicit Encoding: der gesamte Datensatz wird normal visualisiert. Fehlende Werte sind durch explizites Angeben speziell eingefärbt, um sie sichtbar zu machen

Welche Quellen für Unsicherheiten in den Daten gibt es?

Technische oder umweltbedingte Schwankungen (Messfehler oder defekte Sensoren)
Menschliche Fehlkategorisierung / Bias
Stochastische Fehler (z.B. bei Simulationen in der Biologie)

Wie lässt sich das Ergebnis eines Hierarchical Clustering Verfahrens grafisch darstellen und was kann man dabei besonders gut unterscheiden?

Hierarchical Clusters können in einem Dendrogramm dargestellt werden. Dabei wird der Effekt verschiedener linkage Arten besonders gut sichtbar.

Welches sind die drei wichtigsten Preattentive Clues?

Position
Farbe
Größe

Welche weiteren Preattentive Clues außer Position, Farbe und Größe gibt es?

Orientierung
Länge
Öffnung (z.B. halboffene Kreise)
Dichte
Gebogenheit
Helligkeit
Form

Welche Gestaltprinzipien gibt es?

Nähe
Ähnlichkeit
Umgrenzung
Verbindung
Kontinuität
Symmetrie
Figur-Untergrund
Öffnung
Common Fate (ähnliche Ausrichtung / ähnliche Merkmale)

Welche visuellen Biases können bei der Visualisierung auftreten?

1. Verzerrung (z.B. Ebbinghaus oder Müller-Lyer-Täuschung) 2. Sinus-Verzerrung 3. Anker-Effekt / Anchoring Effekt -> Veränderung der Wahrnehmung durch zuvor gezeigte Bilder

Was sind Marks?

Marks sind die geometrischen Elemente einer Visualisierung. 0-dimensionale Marks sind Punkte, 1-dimensionale Marks sind Linien, 2-dimensionale Marks sind Flächen, 3-dimensionale Marks sind Körper.

Was sind Channel?

Channels sind die graphischen Eigenschaften der Marks. Man unterscheidet zwischen Magnitude Channels für quantitative and ordinale Daten (z.B. Position, Größe/Länge, Farbsättigung, Luminanz) und Identity Channels für kategorische Daten (z.B. Farbwert, Form).

Welches sind die drei wichtigsten Kriterien beim Mapping in Hinblick auf die Skalierung der Daten (nominal, ordinal, kardinal / metrisch)?

1. Ausdrucksstärke / Expressiveness: wie gut bildet die gewählte Darstellung die Beschaffenheit der Daten ab? 2. Effektivität / Effectiveness: wie gut passt die Darstellung zur Einfachheit der Wahrnehmungsaufgaben? 3. Angemessenheit / Appropriateness: halten sich Aufwand zur Erstellung der Visualisierung und Benefit durch die Betrachtung der Visualisierung im Gleichgewicht?

Was sind Nachteile von 3D Visualisierungen?

- Verdeckung - Perspektivische Verzerrung - Non-anchored Points - Auswahl einzelner Datenpunkte oder Bereiche ist sehr schwierig - Technische Probleme (z.B. unterschiedliches Font Rendering)

Was sind non-anchored points?

Non-anchored points sind ein Nachteil der 3D Visualisierung. Datenpunkte sind dabei so weit von den drei Achsen entfernt, dass ihre Werte nicht mehr abgelesen werden können

Wie lautet eine gute Alternative zu 3D Visualisierungen wenn Mehrdimensionalität eine Rolle spielt?

2.5D Visualisierungen sind entweder nur im Attributraum oder nur im Referenzraum 3D. D.h. entweder sind die Skalen, Koordinatensysteme, Karten etc... 3D oder die Attribute. So bleiben Lesbarkeit und Orientierung erhalten.

Was ist bei Farbskalen in Hinblick auf ihre Luminanz zu beachten?

Luminanz sollte immer monoton steigen, um sicherzustellen, dass Personen mit eingeschränkter Sehfähigkeit (z.B. rot-grün-Schwäche) die Abstufungen unterscheiden können.

Wann ist eine Single-Hue, wann eine Multi-Hue Farbskala angebracht?

Single-Hue: wenn die hauptsächliche Wahrnehmungsaufgabe des Users das Unterscheiden von Ausprägungen eines Attributs ist Multi-Hue: wenn die hauptsächliche Wahrnehmungsaufgabe das Unterscheiden zwischen verschiedenen Attributen ist

Was sind Beispiele für beliebte Multi-Hue Farbskalen?

- CubeHelix - Parula (copyrighted) - CubicYF - Viridis

Was ist die wichtigste Regel beim Labelling?

Direkte Label sollten Legenden immer vorgezogen werden wenn möglich

Welche drei Labeltypen gibt es?

- Plain - Circular - Eccentric

Wie funktioniert der particle-based labelling Algorithmus?

1. Stufe: versuche ein plain label zu platzieren, mit Hilfe des 4-Positionen-Modells / 8-Positionen-Modells / Sliders 2. Stufe: wenn ein plain label nicht gesetzt werden kann, versuche ein eccentric label zu platzieren, indem du das Label entlang einer Spirale bewegst, bis genug Platz verfügbar ist

Was ist bei Fonts und Labels zu beachten?

1. Keine Serifen, da Serifen nur bei längeren Texten (Romane etc) verwendet werden sollten 2. Keine Railway Fonts, da dort die Anordnung von Zahlen außerhalb der line-height erfolgt

Was kann man mit Sketches oder gezeichneten Renderings ausdrücken?

Sketches oder gezeichnete Renderings können genutzt werden, um darzustellen, dass die Visualisierung lediglich ein Prototyp ist oder auch, um Unsicherheiten in der Datenbasis oder den Conclusions darzustellen