VL3 Flashcards

1
Q

5 Dimensionen der Datenqualität

A
  1. Genauigkeit: spiegeln meine Daten die Realität wieder?
  2. Vollständigkeit: sind meine Daten vollständig und unverfälscht?
  3. Reinheit: sind meine Daten fehlerfrei?
  4. Aktualität: sind meine Daten aktuell oder veraltet?
  5. Konsistenz: sind meine Daten über alle Plattformen/ Datenbanken hinweg stimmig?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Rohdaten

A

Datenintegration benötigt Rohdaten zur
• Integration verschiedener Datenquellen in einem Datensatz
• Identifikation der benötigten Daten
• Grundannahme für AAI
> Daten wurden aus dem Quellsystem importiert
> Daten liegen in Rohdatenform auf einer Datenbank vor

Rohdaten sind:
• Ungeprüfte & unbearbeitete Daten, wenn sie von einer Datenquelle geliefert werden
• besitzen das Format, das die jeweilige Datenquelle bereitstellt
• können unter Umständen fehlerhaft sein
• benötigen eine Aufbereitung & Bereinigung
• Techniken der KI können in den seltensten Fällen direkt auf Rohdaten trainiert werden/arbeiten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Strukturierte vs unstrukturierte Daten

A

Strukturierte Daten
• digitale Informationen, die in einer definierten Datenstruktur vorliegen
-> Format ist eindeutig
• Zahlen (Preise, Gewicht, Datum…)
• können gut durch KI weiterverarbeitet werden

Unstrukturierte Daten
• Informationen, die keine formale Struktur haben
-> Audio, Video, Textdateien (E-Mails & Textnachrichten)
• sind nicht leicht bearbeitbar, da für KI nicht leicht zu verstehen
• Notwendigkeit der Strukturierung (!)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Daten Aufbereitung

A
  1. Vorteile der Datenaufbereitung
    • Schnelle Fehlerbehebung
    • Generierung hochwertiger Daten und Gewährleistung der Datenqualität
    • Vermeidung von: Datenmanipulationen & KI-Komplikationen
    • Generierung hochwertiger KI-Modelle und Vorhersagen
    > Vermeidung von falschen bzw. unzureichenden KI-Vorhersagen
  2. Erkundung der Daten (deskriptive Statistik)
    • Mittelwerte, Median, Modus
    • Standardabweichungen, Varianz, Histogramme
    • Box-Plot, Korrelanz, Kovarianz
  3. Datenaufbereitung - Datenbereinigung
    • Als Bereinigung von Daten wird der Prozess
    > des Erkennens &
    > der Korrektur/ Entfernung von ungültigen/ fehlerhaften Daten beschrieben
    • Entscheidend für eine erfolgreiche Bereinigung der Daten:
    > Wo liegen die fehlerhafte Daten vor?
    > Wie liegen die fehlerhaften Daten vor?
    > Durch wen werden ungültige und fehlerhafte Daten erkannt?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Datenbereinigung - Methoden der Problemerkennung

A
  1. Automatisiertes Erkennen
    • Fehlerwerte
    • Bestimmung durch Software
    • Bsp: Unpassende Datentypen (Gleitkommazahl, Ganzzahl, Text)
  2. Teilautomatisiertes Erkennen
    • Vorgaben & Regeln durch Menschen (Intervalle)
    • Bsp: Gewichts- oder Preisbereiche
  3. Manuelles Erkennen
    • (Teil-) automatisiertes Erkennen der Probleme nicht möglich
    • Manuelle Kontrolle & Korrektur der Felder durch den Menschen
    • Formal korrekte Felder, die fachlich fehlerhaft sind → Wissen aus dem Anwendungskontext notwendig (!)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Problemdaten/ Arten von Fehldaten

A
  • Fehlende Werte
  • ungültige Daten
  • unplausible
  • Duplikate
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Transformation der Daten - Aggregation vs. Disaggregation

A

Aggregation
• Zusammenfassung mehrerer Einzelgrößen hinsichtlich eines gleichartigen Merkmals, um Zusammenhänge zu gewinnen
• Bsp: Umsatz pro Stadt → Umsatz pro Land
• Bsp: Tageserlös → Jahreserlös

Disaggregation
• Detaillierung der Größen auf Einzelgrößen, um eine Mikro-Perspektive der Merkmale einnehmen zu können
• Bsp: Umsatz pro Land → Umsatz pro Stadt/Region
• Bsp: Jahreserlös → Tageserlös

How well did you know this?
1
Not at all
2
3
4
5
Perfectly