Gestaltung und Durchführung der Datenerfassung Flashcards

Question 1

Q

Wie lassen sich die Problembereiche der Datenerfassung klassifizieren?

Answer

A

Die Problembereiche der Datenerfassung lassen sich anhand der Dimensionen Schemaebene / Instanzebene und Entwicklungsphase / Nutzungsphase klassifizieren:

Question 2

Q

Was ist auf der Schemaebene in der Entwicklungsphase?

Answer

A

Identifikation der Datenquellen

Syntaktische und semantische Datenintegration

Spezifikation der ETL Prozeduren für das initiale Laden des DWH.

Question 3

Q

Was ist auf der Instanzebene in der Entwicklungsphase?

Answer

A

Analyse der Qualität der Datenquellen

Durchführen eines initialen ETL-Prozesses

Datenqualität: Genauigkeit, Vollständigkeit, Konsistenz und Aktualität der Daten zusammengefasst.

Die Datenqualität wird insbesondere durch mangelnde Referenzintegrität, durch fehlerhafte oder unzulässige Attributwerte, durch fehlende Werte und Nullwerte, durch Redundanzen sowie uneinheitliche und mehrdeutige Codierungen beeinträchtigt.

Question 4

Q

Was ist auf der Schemaebene in der Nutzungsphase?

Answer

A

Spezifikation der ETL Prozeduren für die Aktualisierung des DWH

Anpassung der Datenintegration bei Schemaänderungen.

Question 5

Q

Was ist auf der Instanzebene in der Nutzungsphase?

Answer

A

Festlegen der Aktualisierungsstrategien für die externe und interne Aktualisierung des DWH

Durchführung der aktualisierenden ETL Prozesse.

Question 6

Q

Wie lassen sich Aufgaben bei der Datenextraktion unterteilen?

Answer

A

in einmalige und periodische Aufgaben

Question 7

Q

Was sind einmalige Aufgaben bei der Extraktion?

Answer

A

Festlegen der Aktualisierungsstrategie für die externe Aktualisierung des DWH.

Question 8

Q

Was sind periodische Aufgaben bei der Extraktion?

Answer

A

Erkennen von Datenänderungen in den Datenquellen.

Extraktion der Daten aus den Datenquellen.

Übertragung der Daten in den Arbeitsbereich (Staging-Area) des Data-Warehouse-Systems

Question 9

Q

Welche Techniken zur Extraktion von Daten aus internen Quellen gibt es?

Answer

A

Trigger

Auswertung von Protokolldateien

Benachrichtigung durch spezielle Anwendungsfunktionen

Vergleich von Snapshots der Datenquellen

Question 10

Q

Was sind Voraussetzung und Beschreibung von Trigger?

Answer

A

Das DBVS des operativen Systems benachrichtigt das DWHS bei Datenänderungen mithilfe von Triggerfunktionen.

Für jede Basisrelation eines operativen Systems werden Trigger für das (1) Einfügen, (2) Löschen und (3) Ändern von Tupeln definiert.

V: Das eingesetzte DBVS muss Trigger unterstützen.

Question 11

Q

Was sind Vor-/Nachteile von Triggern?

Answer

A

V: Ermöglicht eine hohe Aktualität des DWH.

N: Definition der Trigger ist aufwändig, ihre Ausführung ist laufzeitintensiv.

Question 12

Q

Was sind Voraussetzung und Beschreibung von Auswertung von Protokolldateien?

Answer

A

Die Extraktorkomponente des Data-Warehouse-Systems wertet die Protokolldateien (Log-Files) des DBVS aus und ermittelt erfolgte Datenänderungen.

V: Protokolldateien des DBVS müssen extern zugreifbar sein, ihr Format muss bekannt sein.

Question 13

Q

Was sind Vor-/Nachteile von Auswertung von Protokolldateien?

Answer

A

V: Datenänderungen werden ohne Zugriff auf die Basistabellen erkannt; es ist keine Anpassung der operativen Systeme erforderlich.

N: Auswertung ist aufwändig.

Question 14

Q

Was sind Voraussetzung und Beschreibung von Benachrichtigung durch spezielle Anwendungsfunktionen?

Answer

A

Spezielle Anwendungsfunktionen der operativen Systeme senden bei einer Datenänderung eine Nachricht an die Extraktorkomponente des Data-Warehouse-Systems.

V: Operatives System muss Benachrichtigungsfunktion unterstützen.

Question 15

Q

Was sind Vor-/Nachteile von Benachrichtigung
durch spezielle Anwendungsfunktionen?

Answer

A

V: Bei operativen Systemen einsetzbar, die ohne DBVS betrieben werden bzw. wenn Trigger oder Protokolldateien nicht zur Verfügung stehen.

N: Aufwändige Modifikation des operativen Systems erforderlich.

Question 16

Q

Was sind Voraussetzung und Beschreibung von Vergleich von
Snapshots der Datenquellen?

Answer

A

Die Extraktorkomponente erstellt in periodischen Zeitabständen einen Snapshot des gesamten Datenbestands des Anwendungssystems. Datenänderungen werden durch Vergleich von Snapshots mithilfe modifizierter Verbundalgorithmen erkannt.

V: keine

Question 17

Q

Was sind Vor-/Nachteile von Auswertung von Vergleich von
Snapshots der Datenquellen?

Answer

A

V: Universell einsetzbar, keine oder nur geringe Modifikation der operativen Systeme notwendig.

N: Sehr zeitaufwändiger Datenvergleich.

Question 18

Q

Wann sollte welche Technik zum Einsatz kommen?

Answer

A

Die vier Techniken sollten in der angegebenen Reihenfolge auf ihre Einsetzbarkeit geprüft werden. Die letzte Technik, der Vergleich von Snapshots, ist praktisch immer einsetzbar, erfordert aber einen besonders hohen Extraktionsaufwand und beeinträchtigt die operativen Anwendungssysteme, sofern die Extraktion zu deren Laufzeit durchgeführt wird.

Trigger
Auswertung von Protokolldateien
Benachrichtigung durch spezielle Anwendungsfunktionen
Vergleich von Snapshots der Datenquellen

Question 19

Q

Was sind externe Datenquellen?

Answer

A

Datenbanken von Wirtschaftsverbänden, Marktforschungsinstituten, Börseninstituten, WWW usw.

Question 20

Q

Was sind Merkmale externer Datenquellen?

Answer

A

Heterogene Formate der qualitativen und quantitativen Daten.

Multimediale Daten (Text, Bild, Audio, Video).

Question 21

Q

Was sind Möglichkeiten der Einbindung externer Datenquellen?

Answer

A

(Kostenpflichtige) Anfragen an externe Datenquellen und klassisches ETL.

In das DWH werden nur Querverweise auf externe Daten aufgenommen (z.B. URL). Die externen Daten selbst werden nicht im Data-Warehouse-System gespeichert.

Web-Farming für Internet- und Intranet-Inhalte.

Question 22

Q

Was sind Aufgaben bei der Datentransformation?

Answer

A

Einmalig: Integration der Teilschemata der Datenquellen zum Data-Warehouse-Schema

Periodisch: Transformation der aus den Datenquellen extrahierten Daten in ladbare Daten für das Data-Warehouse; = Data-Migration (Syntaktische Transformation

Dabei Datenbereinigung durch Data-Scrubbing (Semantik).

Question 23

Q

Was sind Konflikte bei der Integration der Teilschemata der Datenquellen zum Data-Warehouse-Schema?

Answer

A

Benennungskonflikte

Strukturkonflikte

Datentypkonflikte

Codierungskonflikte

Inkompatible Aggregationen

Inkompatible Kennzahlen

Question 24

Q

Was sind Benennungskonflikte?

Answer

A

Homonyme liegen vor, wenn ein Bezeichner unterschiedliche
Objekte bezeichnet, Synonyme liegen vor, wenn unterschiedliche Bezeichner dasselbe Objekt bezeichnen.

Homonyme und Synonyme treten häufig auf, wenn Datenschemata unterschiedlicher Herkunft zusammengeführt werden müssen. Die Probleme sind durch eine geeignete Namensvergabe aufzulösen.

Question 25

Q

Was sind Strukturkonflikte?

Answer

A

durchgängige Identifizierung und Referenzierung von Daten durch geeignete Zuordnung von Primär- und Fremdschlüsseln erreicht werden. Schlüssel müssen kompatibel gemacht werden, fehlende Attribute sind zu ergänzen.

Question 26

Q

Was sind Datentypkonflikte?

Answer

A

Dabei geht es um eine Angleichung von Datentypen, z.B. bei
Datumsangaben von CHAR(8) nach DATE, wenn Datumsangaben in den einzelnen Datenquellen unterschiedliche Datentypen aufweisen

Question 27

Q

Was sind Codierungskonflikte?

Answer

A

Vereinheitlichung der Codierung von Eigenschaftswerten, z.B. „EKPreis“
und „VK-Preis“ statt „EK“ und „VK“.

Question 28

Q

Was sind Inkompatible Aggregationen?

Answer

A

Z.B. liegen Kennzahlen aus einer Datenquelle auf Tagesbasis, aus einer anderen auf Wochenbasis vor; sie können z.B. einheitlich auf
Wochenbasis aggregiert werden.

Question 29

Q

Was sind Inkompatible Kennzahlen?

Answer

A

Vereinheitlichung von Kennzahlensystemen

Question 30

Q

Was sind Techniken zur Transformation von Daten?

Answer

A

Data-Migration (syntaktische Anpassung)
Data-Scrubbing (semantische Anpassung)

(Data Auditing)

Question 31

Q

Was ist Data-Migration (syntaktische Anpassung)?

Answer

A

Alle genannten Konflikte - mit Ausnahme der Benennungskonflikte - werden durch syntaktische Transformation aufgelöst.

Syntaktische Transformationen umfassen ausschließlich Beziehungen zwischen: Datenschemata, bzw. zwischen den zugehörigen Datenobjekttypen und Attributen.

Question 32

Q

Was ist Data-Scrubbing (semantische Anpassung)?

Answer

A

Geht um die Beziehung zwischen Objekten der betrieblichen Realität und den Eigenschaftswerten dieser Objekte, die als Daten gespeichert werden.

Werden z.B. für einen bestimmten Kunden (Objekt der betrieblichen Realität) unterschiedliche Schreibweisen seines Namens verwendet, so ist im Rahmen der semantischen Bereinigung eine Vereinheitlichung herbeizuführen

Question 33

Q

Was ist Data Auditing?

Answer

A

Als weitere Technik wird häufig Data-Auditing genannt. Dabei geht es um das Auffinden von Beziehungszusammenhängen in Datenbeständen

Question 34

Q

Was sind Aufgaben beim Laden von Daten?

Answer

A

Einmalig: Festlegen der Aktualisierungsstrategie für die
interne Aktualisierung des DWH.

Periodisch:
* Überprüfen von (referenziellen) Integritätsbedingungen.
* Sortieren von Daten.
* Aufbauen von Indizes und anderen Zugriffsstrukturen.
* Berechnen von Aggregationen.
* Historisierung von Daten (z.B. durch Zeitstempel).

Question 35

Q

Was sind Aktualisierungsstrategien zum Laden des Data-Warehouse?

Answer

A

Immediate Refresh

Deferred Refresh

Snapshot Refresh

gemeint ist eine DWH-externe Datenquelle. Diese kann aus Sicht des jeweiligen Unternehmens eine interne Datenquelle (operative Systeme) oder eine externe Datenquelle sein.

Question 36

Q

Was ist Immediate Refresh?

Answer

A

Push-Prinzip

Sofortige Aktualisierung des Data-Warehouse nach einer Modifikation von Daten in einer Datenquelle.

Question 37

Q

Was ist Deferred Refresh?

Answer

A

Pull-Prinzip

Die Aktualisierung des Data-Warehouse erfolgt Pull-Prinzip
unmittelbar vor der Bearbeitung der nächsten Anfrage.

Question 38

Q

Was ist Snapshot Refresh?

Answer

A

Extern gesteuert

Die Aktualisierung des Data-Warehouse erfolgt periodisch zu bestimmten Zeitpunkten oder beim Eintreten eines bestimmten Ereignisses.

Question 39

Q

Was sind Probleme beim Laden des Data-Warehouse?

Answer

A

Problem der zeitlichen Länge des Ladevorgangs

Wiederaufnahme fehlgeschlagener oder unterbrochener
Datenerfassungsprozesse.

Question 40

Q

Was ist das Problem der zeitlichen Länge des Ladevorgangs?

Answer

A

Während dieser Zeit können im Allgemeinen keine Anfragen an das Data-Warehouse bearbeitet werden.

Aus diesem Grund wird u.a. eine Trennung zwischen externer und interner Aktualisierung durchgeführt. Während der externen Aktualisierung kann auf die bisherigen Inhalte des Data-Warehouse zugegriffen werden. Lediglich während der internen Aktualisierung ist dies nicht möglich.

Weiter wird versucht, die Zeitdauer für die interne Aktualisierung zu begrenzen.

Question 41

Q

Was ist das Problem der Wiederaufnahme fehlgeschlagener oder unterbrochener Datenerfassungsprozesse?

Answer

A

Ein weiteres Problem liegt in der Wiederaufnahme fehlgeschlagener oder unterbrochener Ladeprozesse. Solche Fehler treten z.B. dann auf, wenn beim Laden bestimmte Konflikte nicht aufgelöst werden können. In diesem Fall ist häufig ein manuelles Eingreifen erforderlich. Zum Beispiel kann beim Zusammenführen der neu zu ladenden Daten mit den bereits im Data-Warehouse befindlichen Daten eine Verletzung von referenziellen Integritätsbedingungen auftreten.

Question 42

Q

Welche Werkzeugunterstützung gibt es?

Answer

A

SQL-Skripte

Spezielle ETL Werkzeuge

Question 43

Q

Was sind SQL-Skripte?

Answer

A

Die einzelnen Transformationen bzw. Schritte werden in Form von SQL-Skripten spezifiziert.

Question 44

Q

Was sind Vor-/Nachteile von SQL-Skripten?

Answer

A

V: Keine zusätzlichen Kosten für Werkzeuge

N:
Aufwändige Erstellung und Pflege & fehleranfällig
Keine Einbeziehung von Metadaten

Question 45

Q

Was sind Spezielle ETL Werkzeuge?

Answer

A

Die Spezifikation der einzelnen Transformationen bzw. Schritte wird durch ein spezielles ETL-Werkzeug mit grafischer Oberfläche unterstützt.

Beispiele:
* Microsoft – Data Transformation Services (Bestandteil des Microsoft SQL Servers)

Question 46

Q

Was sind Vor-/Nachteile von speziellen ETL Werkzeugen?

Answer

A

V:
-Visuelle Unterstützung bei der Spezifikation der einzelnen Schritte und bei der Gestaltung des ETL Prozesses
-leichter erlern- und handhabbar
-Einbeziehung von Metadaten ist möglich.
-Automatische, zeitgesteuerte Ausführung von ETL-Schritten.
-Benachrichtigung (z.B. E-Mail) bei Fehlern

N: Zusätzliche Kosten für Werkzeuge.

Question 47

Q

Was sind Slowly Changing Dimensions (SCD)?

Answer

A

Beim Betrieb eines Data-Warehouse-Systems geht man im Allgemeinen davon aus, dass beim Laden ausschließlich Daten hinzugefügt werden. Eine Modifikation oder ein Löschen von Daten findet nicht statt.

Es kann jedoch der Fall eintreten, dass Werte von beschreibenden Attributen einer Dimensionshierarchiestufe im Zeitverlauf verändert werden. Dieser Sachverhalt wird als „Slowly Changing Dimensions“ bezeichnet.

Question 48

Q

Was passiert mit quant./qual. Daten beim Betrieb eines DWHS?

Answer

A

Quantitative Daten: Diese werden in die Fakttabellen geladen und über Fremdschlüsselbeziehungen mit den zugehörigen Dimensionselementen der inzelnen Dimensionen auf der untersten Dimensionshierarchiestufe verknüpft.

Qualitative Daten: Soweit die jeweiligen Dimensionselemente in den Dimensionstabellen nicht vorhanden sind, werden sie eingefügt.

Question 49

Q

Welche SCD Typen gibt es?

Answer

A

Typ 1: Überschreiben
Typ 2: Partitionierung der Historie
Typ 3: Wechselweise Sachverhalte

Question 50

Q

Was ist Typ 1: Überschreiben?

Answer

A

Beim Produkt A1203 wird die Verpackungsart von „Styropor“ auf „Karton“ umgestellt. Die genaue Historie der Werte des Attributs Verpackungsart ist vernachlässigbar.

Behandlung: Der Attributwert wird mit dem neuen Wert überschrieben. Das bedeutet, dass auch Umsätzen, die vor dem Umstellungszeitpunkt erzielt wurden, die neue Verpackungsart zugeordnet ist.

SCD Typ 1 kann Auswirkungen auf aggregierte Fakttabellen haben, falls Aggregationen auf dem geänderten Attibutwert durchgeführt wurden (z.B. Anzahl der Artikel je Verpackungsart).

Question 51

Q

Was ist Typ 2: Partitionierung der Historie?

Answer

A

Beispiel: Die Historie der Werte des Attributs ist von Interesse.

Behandlung: Es wird ein neues Tupel in die Dimensionstabelle eingefügt. Voraussetzung dafür ist die Trennung zwischen einem künstlichen Primärschlüssel (Surrogatschlüssel) und einer natürlichen Artikel-ID.

Ab dem Zeitpunkt der Änderung des Attributwerts wird das neue Tupel der Dimensionstabelle mit den zu ladenden Tupeln der Fakttabelle verknüpft.

Question 52

Q

Was ist Typ 3: Wechselweise Sachverhalte?

Answer

A

Beispiel: Parallel zu der neuen Verpackungsart soll die alte Form für bestimmte Auswertungen erhalten bleiben.

Behandlung: Es wird ein weiteres Attribut Verpackungsart alt in die Dimensionstabelle aufgenommen. Die bisherigen Attributwerte werden umgespeichert. Das bisherige Attribut Verpackungsart erhält den neuen Wertebereich.

Hinweise:
* Sofern die Dimensionstabelle keine „Reservefelder“ enthält, führt die Behandlung von SCD Typ 3 zu einer Schemaänderung.

Die Auswertung des DWH kann wechselweise nach Verpackungsart oder Verpackungsart alt erfolgen.

Question 53

Q

Was ist Data Vault?

Answer

A

Data Vault ist eine von Daniel Linstedt um das Jahr 2000 entwickelte Modellierungsmethode, die sich speziell für den ETL-Prozess von Data Warehouses (DWH) eignet.

Mit Data Vault soll der ETL-Prozess weitgehend automatisiert durchgeführt werden.

Question 54

Q

Für welche Data Warehouses ist Data Vault speziell geeignet?

Answer

A

Speziell für Enterprise Data Warehouses

Question 55

Q

Welche Modellierungsmerkmale besitzt Data Vault?

Answer

A

Modellierung integrierter DWH
Modellierung der Historisierung von DWH
Agile Modellierung von DWH

Question 56

Q

Welche Modellbausteine stellt Data Vault zur Verfügung?

Answer

A

Hub: bilden Business Keys ab, die Geschäftsobjekte oder Entities repräsentieren,
Satellite: beschreiben den Kontext der Geschäftsobjekte.
Link: realisieren Beziehungen zwischen Entities

Question 57

Q

Wie lässt sich Data Vault gegenüber anderen Modellierungsansätzen abgrenzen?

Answer

A

3NF-Schema: Operationale Systeme (OLTP)
Star-Schema: Data Mart (OLAP)
Data Vault: Enterprise Data Warehouse (DWH)

Question 58

Q

Was ist die Motivation hinter Data Vault?

Answer

A

Zunehmende Integrationsreichweite von DWH, die letztlich zum unternehmensweiten DWH, dem Enterprise Data Warehouse, führt.

Erweiterte Anforderungen an die Historisierung von Daten

Notwendigkeit der Veränderung von DWH auf Schemaebene wichtig, die zur Anforderung nach einer agilen Modellierung führt.

Question 59

Q

Wie ist die Architektur von Data Vault?

Answer

A

Data Vault Architektur unterscheidet mehrere übereinander liegende Schemata

Über einer im Allgemeinen nicht persistenten Stage liegen die beiden Data-Vault-Schemata (Raw Data Vault + Business Data Vault), welche zusammen das Enterprise Data Warehouse bilden.

Die Modellbausteine und die zugehörigen Regeln des Data Vault sind so gestaltet, dass eine weitgehend automatisierte Transformation zwischen den Schichten möglich ist.

Auf dem Enterprise Data Warehouse kann es dann Data Marts geben

Question 60

Q

Was ist Raw Data Vault?

Answer

A

Das ebenfalls im Allgemeinen nicht persistente Raw Data Vault orientiert sich an der Stage und unterstützt insbesondere das Ziel der Historisierung.

Question 61

Q

Was ist Business Data Vault?

Answer

A

Business Data Vault unterstützt die Ableitung der Data- Mart-Schicht und dient den Zielen der Zusammenführung (Integration) und Unterstützung der Agilität.

Business Data Vault ist persistent, d.h. es bleibt von einer Durchführung des ETL-Prozesses zur nächsten erhalten.

Question 62

Q

Welche Modellierungsbausteine gibt es bei Data Vault?

Answer

A

Data Vault stellt drei Modellierungsbausteine zur Verfügung:

Hubs bilden Business Keys ab, die Geschäftsobjekte oder Entities repräsentieren

Links realisieren Beziehungen zwischen Entities

Satellites beschreiben den Kontext der Geschäftsobjekte.

Wichtig ist dabei die Exklusivität der Konzepte. So bildet ein Hub nur Business Keys und nichts anderes ab. Dies gilt in gleicher Weise für Links und Satellites.

Question 63

Q

Wie verändert sich ein Data-Vault-Schema?

Answer

A

Ein Data-Vault-Schema wächst ausschließlich an. Technisch gesprochen, ist damit nur der Insert-Operator verfügbar, Delete oder auch Update sind untersagt.

Question 64

Q

Was sind die drei wesentlichen Modellierungseigenschaften von Data
Vault?

Answer

A

die Integration, die Historisierung und die Agilität

Answer 65

A

Ziel der Historisierung ist die beliebige Rekonstrutierbarkeit eines Zeitpunkts oder Zeitraums im Datenbestand des DWH. Voraussetzung hierfür ist eine entsprechende Bildung der Schlüssel auf der Schemaebene

Answer 66

A

Die agile Modellierung eines DWH soll so erfolgen, dass der Satzaufbau niemals geändert werden muss, sondern mithilfe von Insert neue Bestandteile hinzugefügt werden.

Answer 67

A

Auf Instanzebene wächst das Schema unter Beibehaltung der Attribute an. Dies ist durch die Kardinalitäten zwischen Hub und Sat bzw. zwischen Link und Hub möglich.

Die Schemaebene wird verändert, wenn neue Attribute hinzukommen. Fallen alte Attribute weg, so werden sie auf der Instanzebene nicht mehr bedient.

Answer 68

A

Die Ähnlichkeit zum klassischen Entity-Relationship-Modell (ERM) ist offensichtlich.

Ein Entity-Typ entspricht einem Hub und den zugehörigen Satellites, allerdings sind diese auf unterschiedliche Tabellen aufgeteilt. Ein Relationship-Typ entspricht einem Link