Data Wrangling Flashcards
Aus welchen 6 Schritten besteht der Data-Wrangling-Prozess?
Data Wrangling
- Discover (Beschaffen)
- Strucuture (Strukturieren)
- Cleanse (Bereinigen)
- Enrich (Anreichern)
- Validate (Validieren)
- Publish (Bereitstellen)
Wie lautet die Definition von Data Wrangling?
Data Wrangling
Data Wrangling ist ein iterativer Prozess, um die Daten brauchbar zu machen.
Was heisst “brauchbar” im Kontext des Data Wrangling?
Data Wrangling
Die Daten sind in einem auswertbaren, vertrauenswürdigen Zustand und sie können die gestellten Fragen beantworten.
Was passiert im Discover-Schritt (3)?
Data Wrangling
- Relevante Datensets identifzieren.
- Datensets inhaltlich und strukturell verstehen.
- Probleme im Datenset erkennen (Qualität, Vollständigkeit)
Was passiert in der Strukturierung?
Data Wrangling
- Umwandlung der Daten in Zeilen und Spalten.
- Nicht relevante Informationen entfernen.
Was passiert in der Bereinigung (5)?
Data Wrangling
- Werte in einheitliche Eingheiten umwandeln (z.B. cm/m oder cm/inches)
- Fehlende Informationen ergänzen (z.B. durch Interpolation).
- Falsche, schlechte Informationen entfernen.
- Daten reparieren.
- Ausreisser behandeln.
Was passiert beim Anreichern?
Data Wrangling
- Datensets kombinieren (Join, Concat)
- Neue Werte berechnen
- Daten aggregieren
Was passiert beim Validieren?
Data Wrangling
- Besitzen die Daten Qualitätsprobleme, die eine weitere Analyse gefährden?
- Sind die Daten geeignet, um die Analyseziele zu erreichen?
Was sind die Hauptherausforderungen beim Data Wrangling
Data Wrangling
- Diverse unstrukturierte oder unterschiedlich Strukturierte Quellen, die in eine Form gebracht werden müssen.
- Die Daten wurden für einen anderen Zweck gesammelt.
- Die Analytikziele ändern sich.
- Fehler sind schnell gemacht, werden aber nur schwer erkannt.