VL3 Flashcards
5 Dimensionen der Datenqualität
- Genauigkeit: spiegeln meine Daten die Realität wieder?
- Vollständigkeit: sind meine Daten vollständig und unverfälscht?
- Reinheit: sind meine Daten fehlerfrei?
- Aktualität: sind meine Daten aktuell oder veraltet?
- Konsistenz: sind meine Daten über alle Plattformen/ Datenbanken hinweg stimmig?
Rohdaten
Datenintegration benötigt Rohdaten zur
• Integration verschiedener Datenquellen in einem Datensatz
• Identifikation der benötigten Daten
• Grundannahme für AAI
> Daten wurden aus dem Quellsystem importiert
> Daten liegen in Rohdatenform auf einer Datenbank vor
Rohdaten sind:
• Ungeprüfte & unbearbeitete Daten, wenn sie von einer Datenquelle geliefert werden
• besitzen das Format, das die jeweilige Datenquelle bereitstellt
• können unter Umständen fehlerhaft sein
• benötigen eine Aufbereitung & Bereinigung
• Techniken der KI können in den seltensten Fällen direkt auf Rohdaten trainiert werden/arbeiten
Strukturierte vs unstrukturierte Daten
Strukturierte Daten
• digitale Informationen, die in einer definierten Datenstruktur vorliegen
-> Format ist eindeutig
• Zahlen (Preise, Gewicht, Datum…)
• können gut durch KI weiterverarbeitet werden
Unstrukturierte Daten
• Informationen, die keine formale Struktur haben
-> Audio, Video, Textdateien (E-Mails & Textnachrichten)
• sind nicht leicht bearbeitbar, da für KI nicht leicht zu verstehen
• Notwendigkeit der Strukturierung (!)
Daten Aufbereitung
- Vorteile der Datenaufbereitung
• Schnelle Fehlerbehebung
• Generierung hochwertiger Daten und Gewährleistung der Datenqualität
• Vermeidung von: Datenmanipulationen & KI-Komplikationen
• Generierung hochwertiger KI-Modelle und Vorhersagen
> Vermeidung von falschen bzw. unzureichenden KI-Vorhersagen - Erkundung der Daten (deskriptive Statistik)
• Mittelwerte, Median, Modus
• Standardabweichungen, Varianz, Histogramme
• Box-Plot, Korrelanz, Kovarianz - Datenaufbereitung - Datenbereinigung
• Als Bereinigung von Daten wird der Prozess
> des Erkennens &
> der Korrektur/ Entfernung von ungültigen/ fehlerhaften Daten beschrieben
• Entscheidend für eine erfolgreiche Bereinigung der Daten:
> Wo liegen die fehlerhafte Daten vor?
> Wie liegen die fehlerhaften Daten vor?
> Durch wen werden ungültige und fehlerhafte Daten erkannt?
Datenbereinigung - Methoden der Problemerkennung
- Automatisiertes Erkennen
• Fehlerwerte
• Bestimmung durch Software
• Bsp: Unpassende Datentypen (Gleitkommazahl, Ganzzahl, Text) - Teilautomatisiertes Erkennen
• Vorgaben & Regeln durch Menschen (Intervalle)
• Bsp: Gewichts- oder Preisbereiche - Manuelles Erkennen
• (Teil-) automatisiertes Erkennen der Probleme nicht möglich
• Manuelle Kontrolle & Korrektur der Felder durch den Menschen
• Formal korrekte Felder, die fachlich fehlerhaft sind → Wissen aus dem Anwendungskontext notwendig (!)
Problemdaten/ Arten von Fehldaten
- Fehlende Werte
- ungültige Daten
- unplausible
- Duplikate
Transformation der Daten - Aggregation vs. Disaggregation
Aggregation
• Zusammenfassung mehrerer Einzelgrößen hinsichtlich eines gleichartigen Merkmals, um Zusammenhänge zu gewinnen
• Bsp: Umsatz pro Stadt → Umsatz pro Land
• Bsp: Tageserlös → Jahreserlös
Disaggregation
• Detaillierung der Größen auf Einzelgrößen, um eine Mikro-Perspektive der Merkmale einnehmen zu können
• Bsp: Umsatz pro Land → Umsatz pro Stadt/Region
• Bsp: Jahreserlös → Tageserlös