Gestaltung und Durchführung der Datenerfassung Flashcards
Wie lassen sich die Problembereiche der Datenerfassung klassifizieren?
Die Problembereiche der Datenerfassung lassen sich anhand der Dimensionen Schemaebene / Instanzebene und Entwicklungsphase / Nutzungsphase klassifizieren:
Was ist auf der Schemaebene in der Entwicklungsphase?
Identifikation der Datenquellen
Syntaktische und semantische Datenintegration
Spezifikation der ETL Prozeduren für das initiale Laden des DWH.
Was ist auf der Instanzebene in der Entwicklungsphase?
Analyse der Qualität der Datenquellen
Durchführen eines initialen ETL-Prozesses
Datenqualität: Genauigkeit, Vollständigkeit, Konsistenz und Aktualität der Daten zusammengefasst.
Die Datenqualität wird insbesondere durch mangelnde Referenzintegrität, durch fehlerhafte oder unzulässige Attributwerte, durch fehlende Werte und Nullwerte, durch Redundanzen sowie uneinheitliche und mehrdeutige Codierungen beeinträchtigt.
Was ist auf der Schemaebene in der Nutzungsphase?
Spezifikation der ETL Prozeduren für die Aktualisierung des DWH
Anpassung der Datenintegration bei Schemaänderungen.
Was ist auf der Instanzebene in der Nutzungsphase?
Festlegen der Aktualisierungsstrategien für die externe und interne Aktualisierung des DWH
Durchführung der aktualisierenden ETL Prozesse.
Wie lassen sich Aufgaben bei der Datenextraktion unterteilen?
in einmalige und periodische Aufgaben
Was sind einmalige Aufgaben bei der Extraktion?
Festlegen der Aktualisierungsstrategie für die externe Aktualisierung des DWH.
Was sind periodische Aufgaben bei der Extraktion?
Erkennen von Datenänderungen in den Datenquellen.
Extraktion der Daten aus den Datenquellen.
Übertragung der Daten in den Arbeitsbereich (Staging-Area) des Data-Warehouse-Systems
Welche Techniken zur Extraktion von Daten aus internen Quellen gibt es?
Trigger
Auswertung von Protokolldateien
Benachrichtigung durch spezielle Anwendungsfunktionen
Vergleich von Snapshots der Datenquellen
Was sind Voraussetzung und Beschreibung von Trigger?
Das DBVS des operativen Systems benachrichtigt das DWHS bei Datenänderungen mithilfe von Triggerfunktionen.
Für jede Basisrelation eines operativen Systems werden Trigger für das (1) Einfügen, (2) Löschen und (3) Ändern von Tupeln definiert.
V: Das eingesetzte DBVS muss Trigger unterstützen.
Was sind Vor-/Nachteile von Triggern?
V: Ermöglicht eine hohe Aktualität des DWH.
N: Definition der Trigger ist aufwändig, ihre Ausführung ist laufzeitintensiv.
Was sind Voraussetzung und Beschreibung von Auswertung von Protokolldateien?
Die Extraktorkomponente des Data-Warehouse-Systems wertet die Protokolldateien (Log-Files) des DBVS aus und ermittelt erfolgte Datenänderungen.
V: Protokolldateien des DBVS müssen extern zugreifbar sein, ihr Format muss bekannt sein.
Was sind Vor-/Nachteile von Auswertung von Protokolldateien?
V: Datenänderungen werden ohne Zugriff auf die Basistabellen erkannt; es ist keine Anpassung der operativen Systeme erforderlich.
N: Auswertung ist aufwändig.
Was sind Voraussetzung und Beschreibung von Benachrichtigung durch spezielle Anwendungsfunktionen?
Spezielle Anwendungsfunktionen der operativen Systeme senden bei einer Datenänderung eine Nachricht an die Extraktorkomponente des Data-Warehouse-Systems.
V: Operatives System muss Benachrichtigungsfunktion unterstützen.
Was sind Vor-/Nachteile von Benachrichtigung
durch spezielle Anwendungsfunktionen?
V: Bei operativen Systemen einsetzbar, die ohne DBVS betrieben werden bzw. wenn Trigger oder Protokolldateien nicht zur Verfügung stehen.
N: Aufwändige Modifikation des operativen Systems erforderlich.
Was sind Voraussetzung und Beschreibung von Vergleich von
Snapshots der Datenquellen?
Die Extraktorkomponente erstellt in periodischen Zeitabständen einen Snapshot des gesamten Datenbestands des Anwendungssystems. Datenänderungen werden durch Vergleich von Snapshots mithilfe modifizierter Verbundalgorithmen erkannt.
V: keine
Was sind Vor-/Nachteile von Auswertung von Vergleich von
Snapshots der Datenquellen?
V: Universell einsetzbar, keine oder nur geringe Modifikation der operativen Systeme notwendig.
N: Sehr zeitaufwändiger Datenvergleich.
Wann sollte welche Technik zum Einsatz kommen?
Die vier Techniken sollten in der angegebenen Reihenfolge auf ihre Einsetzbarkeit geprüft werden. Die letzte Technik, der Vergleich von Snapshots, ist praktisch immer einsetzbar, erfordert aber einen besonders hohen Extraktionsaufwand und beeinträchtigt die operativen Anwendungssysteme, sofern die Extraktion zu deren Laufzeit durchgeführt wird.
Trigger
Auswertung von Protokolldateien
Benachrichtigung durch spezielle Anwendungsfunktionen
Vergleich von Snapshots der Datenquellen
Was sind externe Datenquellen?
Datenbanken von Wirtschaftsverbänden, Marktforschungsinstituten, Börseninstituten, WWW usw.
Was sind Merkmale externer Datenquellen?
Heterogene Formate der qualitativen und quantitativen Daten.
Multimediale Daten (Text, Bild, Audio, Video).
Was sind Möglichkeiten der Einbindung externer Datenquellen?
(Kostenpflichtige) Anfragen an externe Datenquellen und klassisches ETL.
In das DWH werden nur Querverweise auf externe Daten aufgenommen (z.B. URL). Die externen Daten selbst werden nicht im Data-Warehouse-System gespeichert.
Web-Farming für Internet- und Intranet-Inhalte.
Was sind Aufgaben bei der Datentransformation?
Einmalig: Integration der Teilschemata der Datenquellen zum Data-Warehouse-Schema
Periodisch: Transformation der aus den Datenquellen extrahierten Daten in ladbare Daten für das Data-Warehouse; = Data-Migration (Syntaktische Transformation
Dabei Datenbereinigung durch Data-Scrubbing (Semantik).
Was sind Konflikte bei der Integration der Teilschemata der Datenquellen zum Data-Warehouse-Schema?
Benennungskonflikte
Strukturkonflikte
Datentypkonflikte
Codierungskonflikte
Inkompatible Aggregationen
Inkompatible Kennzahlen
Was sind Benennungskonflikte?
Homonyme liegen vor, wenn ein Bezeichner unterschiedliche
Objekte bezeichnet, Synonyme liegen vor, wenn unterschiedliche Bezeichner dasselbe Objekt bezeichnen.
Homonyme und Synonyme treten häufig auf, wenn Datenschemata unterschiedlicher Herkunft zusammengeführt werden müssen. Die Probleme sind durch eine geeignete Namensvergabe aufzulösen.
Was sind Strukturkonflikte?
durchgängige Identifizierung und Referenzierung von Daten durch geeignete Zuordnung von Primär- und Fremdschlüsseln erreicht werden. Schlüssel müssen kompatibel gemacht werden, fehlende Attribute sind zu ergänzen.
Was sind Datentypkonflikte?
Dabei geht es um eine Angleichung von Datentypen, z.B. bei
Datumsangaben von CHAR(8) nach DATE, wenn Datumsangaben in den einzelnen Datenquellen unterschiedliche Datentypen aufweisen
Was sind Codierungskonflikte?
Vereinheitlichung der Codierung von Eigenschaftswerten, z.B. „EKPreis“
und „VK-Preis“ statt „EK“ und „VK“.