Datenintegrationsprozess Flashcards
Was sind Problemstellungen der Datenintegration?
Vollständigkeit (Alle relevanten Informationen müssen im integrierten Datenbestand enthalten sein)
Datenfehler (Datensätze müssen inhaltlich fehlerfrei und konsistent sein)
Duplikate (Nicht mehrere Datensätze zu demselben Realweltobjekt)
Qualität (Integrierter Datenbestand muss eine hohe Informationsqualität aufweisen)
Aus welchen Schritten besteht der betriebliche Informationsintegrationsprozess?
Extract, Transform, Load
Was ist Extract?
Auswahl der für die Datenintegration relevanten Datenquellen, Erstellung eines globalen Datenschemas und Abfragen der relevanten Datenquellen
Was ist Transform?
Mapping und Integration der Quellschemata zu einem semantisch eindeutigen Zielschema (Ontologie), Ermittlung und Beseitigung von Datenfehlern und Erkennung und Fusion von Duplikaten
Was ist Load?
Zusammenführung der transformierten Datensätze in einen aggregierten und häufig historisierten Datenbestand und Einfügen (Laden) dieses Datenbestands in ein geeignetes DBMS
Was ist die charakteristische Fragestellung zu Extract?
Welche Datensätze aus den Datenquellen sind für die Datenintegration überhaupt relevant?
Was ist die charakteristische Fragestellung zu Transform?
Wie müssen diese Daten aufbereitet werden, sodass sie zum integrierten Datenbestand passen?
Was ist die charakteristische Fragestellung zu Load?
Wie können die aufbereiteten Datensätze zu einem integrierten Datenbestand zusammengeführt werden?
Wo können Datenfehler entstehen beim Datenintegrationsprozess?
Auf Schema- sowie auf Datenebene und sowohl in einzelnen Datenquellen aus auch bei der Integration mehrerer Datenquellen
Welche Fehler treten im Regelfall bei einzelnen Datenquellen auf Schemaebene auf und wie werden sie behoben?
- Unzulässige Werte
- Verletzung von strukturellen oder referenziellen Integritätsbedingungen
Behebung durch Schemagenerierung und -validierung
Welche Fehler treten im Regelfall bei einzelnen Datenquellen auf Datenebene auf und wie werden sie behoben?
- Fehlende Werte
- Falsche Werte
- Falsche Referenzen
- Kryptische Werte
Behebung durch Datenreinigung und -aufbereitung
Welche Fehler treten im Regelfall bei integrierten Datenquellen auf Datenebene auf und wie werden sie behoben?
- Duplikate
- Unterschiedlich repräsentierte Werte
- Unterschiedliche Aggregationsebenen
Behebung durch Datentransformation, -aggregation und -fusion
Welche Fehler treten im Regelfall bei integrierten Datenquellen auf Schemaebene auf und wie werden sie behoben?
- Schematische oder strukturelle Heterogenität
- Semantische Heterogenität
Behebung durch Schema Mapping und semantische Integration
Was sind Ursachen für Datenfehler?
Dateneingabe und Erfassung (z.B. Tippfehler, Dummy Werte..)
Alterung (Mangelhafte Pflege z.B. Adressänderungen)
Transformation (Fehler bei Spezifikation oder Datentransformationen z.B. Umrechnungsfehler)
Integration (Fehler bei semantischer Integration z.B. Erzeugung von Duplikaten)
Was sind Auswirkungen von Datenfehlern?
Wirtschaftlicher Schaden (z.B. falsche Bestellungen/Lieferungen)
Imageschaden (Negative Resonanz der Kunden z.B. fehlerhafte Verarbeitung Kundendaten)
Rechtliche Probleme (Verstoß gegen Gesetze und Regeln z.B. bei Abrechnung)
Ethische Probleme (Diskriminierung von Personen, z.B. bei fehlerhaften datengetriebenen Personalentscheidungen)
Welche Phasen umfasst ein systematischer betrieblicher Umgang mit Datenfehlern um diese frühzeitig zu erkennen und zu vermeiden?
Profiling
Assessment
Monitoring
Was ist Profiling?
Erkundigung der Datenbestände durch Experten
Überprüfung von Stastitiken zu den Daten wie z.B. Häufigkeitsverteilungen und Ausreißer
Suche nach auffälligen Fehlermuster in den Datenbeständen
Was ist Assessment?
Festlegung von Kriterien die die Datenbestände erfüllen sollen
Messung, wie gut die Bedingungen tatsächlich erfüllt sind
Erstellung eines Berichts zur Anzahl und Verteilung von Fehlern in den Datenbeständen
Was ist Monitoring?
Einleitung von Maßnahmen zur Reduktion der Fehlerzahl durch Fehlerbehebung oder Beseitigung von Fehlerquellen
Regelmäßiges Assessment des Erfolgs dieser Maßnahmen und Vergleich mit vorigen Fehlerquoten
Was gelingt Unternehmen mit den drei Prozessschritten Profiling, Assessment und Monitoring?
Datenfehler möglichst vorzubeugen durch periodische Qualitätskontrolle die ein frühzeitiges Finden und Beseitigen der Datenfehler ermöglicht.
Ohne die Schritte wird es früher oder später zu negativen Konsequenzen durch Datenfehler kommen
Was ist Data Scrubbing?
Bedeutet einzelne Datensätze so aufzubereiten, dass diese für die weiteren Schritte des Datenintegrationsprozesses nutzbar werden.
Was sind Aufgaben des Data Scrubbing?
Datennormalisierung: Datenwerte werden in ein einheitliches Format überführt (Sprache, Syntax etc)
Datenkonvertierung: Numerische Datenwerte werden in einheitliche Einheiten (z B Meter, US Dollar, etc) überführt
Beseitigung fehlender Werte: Fehlende Datenwerte werden durch ein
Verfahren beseitigt
Entfernen von Ausreißern: Werte, die nicht zu den anderen Werten einer Gruppe passen, werden erkannt und ggf entfernt
Welche Verfahren gibt es für die Beseitigung fehlender Werte?
Attribut oder Entität löschen: Attribute oder Entitäten mit vielen fehlenden sollten mangels Aussagekraft gelöscht werden
Nullwert verwenden: Wenn das Zielschema dies zulässt, kann für fehlende Werte ein Nullwert hinterlegt werden
Verwendung eines Dummy Werts: Anstelle eines Nullwerts kann auch ein (einheitlicher!)( Dummy Wert (z B sonstige) verwendet werden
Statistische Imputation: Fehlende numerische Werte können geschätzt werden (z B Mittelwert oder Median der anderen relevanten Werte)
Was passiert nach dem Data Scrubbing?
Die Datensätze können fusioniert werden und in das einheitliche Schema übertragen werden.
Duplikaterkennung ist wichtig vor der tatsächlichen Fusion!