Data Wrangling Flashcards

1
Q

Aus welchen 6 Schritten besteht der Data-Wrangling-Prozess?

Data Wrangling

A
  • Discover (Beschaffen)
  • Strucuture (Strukturieren)
  • Cleanse (Bereinigen)
  • Enrich (Anreichern)
  • Validate (Validieren)
  • Publish (Bereitstellen)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wie lautet die Definition von Data Wrangling?

Data Wrangling

A

Data Wrangling ist ein iterativer Prozess, um die Daten brauchbar zu machen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was heisst “brauchbar” im Kontext des Data Wrangling?

Data Wrangling

A

Die Daten sind in einem auswertbaren, vertrauenswürdigen Zustand und sie können die gestellten Fragen beantworten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was passiert im Discover-Schritt (3)?

Data Wrangling

A
  • Relevante Datensets identifzieren.
  • Datensets inhaltlich und strukturell verstehen.
  • Probleme im Datenset erkennen (Qualität, Vollständigkeit)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was passiert in der Strukturierung?

Data Wrangling

A
  • Umwandlung der Daten in Zeilen und Spalten.
  • Nicht relevante Informationen entfernen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was passiert in der Bereinigung (5)?

Data Wrangling

A
  • Werte in einheitliche Eingheiten umwandeln (z.B. cm/m oder cm/inches)
  • Fehlende Informationen ergänzen (z.B. durch Interpolation).
  • Falsche, schlechte Informationen entfernen.
  • Daten reparieren.
  • Ausreisser behandeln.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was passiert beim Anreichern?

Data Wrangling

A
  • Datensets kombinieren (Join, Concat)
  • Neue Werte berechnen
  • Daten aggregieren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was passiert beim Validieren?

Data Wrangling

A
  • Besitzen die Daten Qualitätsprobleme, die eine weitere Analyse gefährden?
  • Sind die Daten geeignet, um die Analyseziele zu erreichen?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was sind die Hauptherausforderungen beim Data Wrangling

Data Wrangling

A
  • Diverse unstrukturierte oder unterschiedlich Strukturierte Quellen, die in eine Form gebracht werden müssen.
  • Die Daten wurden für einen anderen Zweck gesammelt.
  • Die Analytikziele ändern sich.
  • Fehler sind schnell gemacht, werden aber nur schwer erkannt.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly