Gestaltung und Durchführung der Datenerfassung Flashcards
ETL
Extraktion
Transformation
Laden
Problembereiche der Datenerfassung:
Entwicklungsphase/Schemaebene
- Identifikation der Datenquellen.
- Syntaktische und semantische Datenintegration.
- Spezifikation der ETL-Prozeduren für das initiale Laden des DWH.
Problembereiche der Datenerfassung:
Entwicklungsphase/Instanzebene
- Analyse der Qualität der Datenquellen.
* Durchführen eines initialen ETL-Prozesses.
Problembereiche der Datenerfassung:
Nutzungsphase/Schemaebene
- Spezifikation der ETL-Prozeduren für die Aktualisierung des DWH.
- Anpassung der Datenintegration bei Schemaänderungen.
Problembereiche der Datenerfassung:
Nutzungsphase/Instanzebene
- Festlegen der Aktualisierungsstrategien für die externe und interne Aktualisierung des DWH.
- Durchführung der aktualisierenden ETL-Prozesse.
Aufgaben bei der Datenextraktion
Einmalig:
• Festlegen der Aktualisierungsstrategie für die externe Aktualisierung des DWH.
Periodisch:
• Erkennen von Datenänderungen in den Datenquellen.
• Extraktion der Daten aus den Datenquellen.
• Übertragung der Daten in den Arbeitsbereich (Staging-Area) des Data-Warehouse-Systems.
Extraktion: Trigger
Das DBVS des operativen Systems benachrichtigt das Data-Warehouse-System bei Datenänderungen mithilfe von Triggerfunktionen. Für jede Basisrelation eines operativen Systems werden Trigger für das (1) Einfügen, (2) Löschen und (3) Ändern von Tupeln definiert.
Extraktion: Auswertung von Protokolldateien
Die Extraktorkomponente des Data-Warehouse-Systems wertet die Protokolldateien (Log-Files) des DBVS aus und ermittelt erfolgte Datenänderungen.
Extraktion: Benachrichtigung durch spezielle Anwendungsfunktionen
Spezielle Anwendungsfunktionen der operativen Systeme senden bei einer Datenänderung eine Nachricht an die Extraktorkomponente des Data-
Warehouse-Systems.
Extraktion: Vergleich von Snapshots der Datenquellen
Die Extraktorkomponente erstellt in periodischen Zeitabständen einen Snapshot des gesamten Daten-
bestands des Anwendungssystems. Datenänderungen werden durch Vergleich von Snapshots mithilfe modifizierter Verbundalgorithmen erkannt.
Konflikte Datenintegration (Schemaintegration)
- Benennungskonflikte (Homonyme und Synonyme bei Tabellendefinitionen und Attributen).
- Strukturkonflikte (Inkonsistente Primär- und Fremdschlüssel, fehlende Attribute).
- Datentypkonflikte (Inkompatible Datentypen bzw. Wertebereiche).
- Codierungskonflikte (Inkompatible Codierung von Eigenschaftswerten).
- Inkompatible Aggregationen von Kennzahlwerten.
- Inkompatible Bildung abgeleiteter Kennzahlen.
Immediate Refresh
Sofortige Aktualisierung des Data-Warehouse nach einer Modifikation von Daten in einer Datenquelle.
Push-Prinzip
Deferred Refresh
Die Aktualisierung des Data-Warehouse erfolgt unmittelbar vor der Bearbeitung der nächsten Anfrage.
Pull-Prinzip
Snapshot Refresh
Die Aktualisierung des Data-Warehouse erfolgt periodisch zu bestimmten Zeitpunkten oder beim Eintreten eines bestimmten Ereignisses.
Extern gesteuert
Slowly Changing Dimensions (SCD)
Beim Betrieb eines Data-Warehouse-Systems geht man im Allgemeinen davon aus, dass beim Laden ausschließlich Daten hinzugefügt werden. Eine Modifikation oder ein Löschen von Daten findet nicht statt.
Es kann jedoch der Fall eintreten, dass Werte von beschreibenden Attributen einer Dimensionshierarchiestufe im Zeitverlauf verändert werden. Dieser Sachverhalt wird als „Slowly Changing Dimensions“ bezeichnet.