Gestaltung und Durchführung der Datenerfassung Flashcards

1
Q

Wie lassen sich die Problembereiche der Datenerfassung klassifizieren?

A

Die Problembereiche der Datenerfassung lassen sich anhand der Dimensionen Schemaebene / Instanzebene und Entwicklungsphase / Nutzungsphase klassifizieren:

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist auf der Schemaebene in der Entwicklungsphase?

A

Identifikation der Datenquellen

Syntaktische und semantische Datenintegration

Spezifikation der ETL Prozeduren für das initiale Laden des DWH.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist auf der Instanzebene in der Entwicklungsphase?

A

Analyse der Qualität der Datenquellen

Durchführen eines initialen ETL-Prozesses

Datenqualität: Genauigkeit, Vollständigkeit, Konsistenz und Aktualität der Daten zusammengefasst.

Die Datenqualität wird insbesondere durch mangelnde Referenzintegrität, durch fehlerhafte oder unzulässige Attributwerte, durch fehlende Werte und Nullwerte, durch Redundanzen sowie uneinheitliche und mehrdeutige Codierungen beeinträchtigt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist auf der Schemaebene in der Nutzungsphase?

A

Spezifikation der ETL Prozeduren für die Aktualisierung des DWH

Anpassung der Datenintegration bei Schemaänderungen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist auf der Instanzebene in der Nutzungsphase?

A

Festlegen der Aktualisierungsstrategien für die externe und interne Aktualisierung des DWH

Durchführung der aktualisierenden ETL Prozesse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wie lassen sich Aufgaben bei der Datenextraktion unterteilen?

A

in einmalige und periodische Aufgaben

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was sind einmalige Aufgaben bei der Extraktion?

A

Festlegen der Aktualisierungsstrategie für die externe Aktualisierung des DWH.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was sind periodische Aufgaben bei der Extraktion?

A

Erkennen von Datenänderungen in den Datenquellen.

Extraktion der Daten aus den Datenquellen.

Übertragung der Daten in den Arbeitsbereich (Staging-Area) des Data-Warehouse-Systems

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Welche Techniken zur Extraktion von Daten aus internen Quellen gibt es?

A

Trigger

Auswertung von Protokolldateien

Benachrichtigung durch spezielle Anwendungsfunktionen

Vergleich von Snapshots der Datenquellen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was sind Voraussetzung und Beschreibung von Trigger?

A

Das DBVS des operativen Systems benachrichtigt das DWHS bei Datenänderungen mithilfe von Triggerfunktionen.

Für jede Basisrelation eines operativen Systems werden Trigger für das (1) Einfügen, (2) Löschen und (3) Ändern von Tupeln definiert.

V: Das eingesetzte DBVS muss Trigger unterstützen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was sind Vor-/Nachteile von Triggern?

A

V: Ermöglicht eine hohe Aktualität des DWH.

N: Definition der Trigger ist aufwändig, ihre Ausführung ist laufzeitintensiv.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was sind Voraussetzung und Beschreibung von Auswertung von Protokolldateien?

A

Die Extraktorkomponente des Data-Warehouse-Systems wertet die Protokolldateien (Log-Files) des DBVS aus und ermittelt erfolgte Datenänderungen.

V: Protokolldateien des DBVS müssen extern zugreifbar sein, ihr Format muss bekannt sein.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was sind Vor-/Nachteile von Auswertung von Protokolldateien?

A

V: Datenänderungen werden ohne Zugriff auf die Basistabellen erkannt; es ist keine Anpassung der operativen Systeme erforderlich.

N: Auswertung ist aufwändig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was sind Voraussetzung und Beschreibung von Benachrichtigung durch spezielle Anwendungsfunktionen?

A

Spezielle Anwendungsfunktionen der operativen Systeme senden bei einer Datenänderung eine Nachricht an die Extraktorkomponente des Data-Warehouse-Systems.

V: Operatives System muss Benachrichtigungsfunktion unterstützen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was sind Vor-/Nachteile von Benachrichtigung
durch spezielle Anwendungsfunktionen?

A

V: Bei operativen Systemen einsetzbar, die ohne DBVS betrieben werden bzw. wenn Trigger oder Protokolldateien nicht zur Verfügung stehen.

N: Aufwändige Modifikation des operativen Systems erforderlich.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was sind Voraussetzung und Beschreibung von Vergleich von
Snapshots der Datenquellen?

A

Die Extraktorkomponente erstellt in periodischen Zeitabständen einen Snapshot des gesamten Datenbestands des Anwendungssystems. Datenänderungen werden durch Vergleich von Snapshots mithilfe modifizierter Verbundalgorithmen erkannt.

V: keine

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was sind Vor-/Nachteile von Auswertung von Vergleich von
Snapshots der Datenquellen?

A

V: Universell einsetzbar, keine oder nur geringe Modifikation der operativen Systeme notwendig.

N: Sehr zeitaufwändiger Datenvergleich.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Wann sollte welche Technik zum Einsatz kommen?

A

Die vier Techniken sollten in der angegebenen Reihenfolge auf ihre Einsetzbarkeit geprüft werden. Die letzte Technik, der Vergleich von Snapshots, ist praktisch immer einsetzbar, erfordert aber einen besonders hohen Extraktionsaufwand und beeinträchtigt die operativen Anwendungssysteme, sofern die Extraktion zu deren Laufzeit durchgeführt wird.

Trigger
Auswertung von Protokolldateien
Benachrichtigung durch spezielle Anwendungsfunktionen
Vergleich von Snapshots der Datenquellen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Was sind externe Datenquellen?

A

Datenbanken von Wirtschaftsverbänden, Marktforschungsinstituten, Börseninstituten, WWW usw.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Was sind Merkmale externer Datenquellen?

A

Heterogene Formate der qualitativen und quantitativen Daten.

Multimediale Daten (Text, Bild, Audio, Video).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Was sind Möglichkeiten der Einbindung externer Datenquellen?

A

(Kostenpflichtige) Anfragen an externe Datenquellen und klassisches ETL.

In das DWH werden nur Querverweise auf externe Daten aufgenommen (z.B. URL). Die externen Daten selbst werden nicht im Data-Warehouse-System gespeichert.

Web-Farming für Internet- und Intranet-Inhalte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Was sind Aufgaben bei der Datentransformation?

A

Einmalig: Integration der Teilschemata der Datenquellen zum Data-Warehouse-Schema

Periodisch: Transformation der aus den Datenquellen extrahierten Daten in ladbare Daten für das Data-Warehouse; = Data-Migration (Syntaktische Transformation

Dabei Datenbereinigung durch Data-Scrubbing (Semantik).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Was sind Konflikte bei der Integration der Teilschemata der Datenquellen zum Data-Warehouse-Schema?

A

Benennungskonflikte

Strukturkonflikte

Datentypkonflikte

Codierungskonflikte

Inkompatible Aggregationen

Inkompatible Kennzahlen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Was sind Benennungskonflikte?

A

Homonyme liegen vor, wenn ein Bezeichner unterschiedliche
Objekte bezeichnet, Synonyme liegen vor, wenn unterschiedliche Bezeichner dasselbe Objekt bezeichnen.

Homonyme und Synonyme treten häufig auf, wenn Datenschemata unterschiedlicher Herkunft zusammengeführt werden müssen. Die Probleme sind durch eine geeignete Namensvergabe aufzulösen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Was sind Strukturkonflikte?

A

durchgängige Identifizierung und Referenzierung von Daten durch geeignete Zuordnung von Primär- und Fremdschlüsseln erreicht werden. Schlüssel müssen kompatibel gemacht werden, fehlende Attribute sind zu ergänzen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Was sind Datentypkonflikte?

A

Dabei geht es um eine Angleichung von Datentypen, z.B. bei
Datumsangaben von CHAR(8) nach DATE, wenn Datumsangaben in den einzelnen Datenquellen unterschiedliche Datentypen aufweisen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Was sind Codierungskonflikte?

A

Vereinheitlichung der Codierung von Eigenschaftswerten, z.B. „EKPreis“
und „VK-Preis“ statt „EK“ und „VK“.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Was sind Inkompatible Aggregationen?

A

Z.B. liegen Kennzahlen aus einer Datenquelle auf Tagesbasis, aus einer anderen auf Wochenbasis vor; sie können z.B. einheitlich auf
Wochenbasis aggregiert werden.

29
Q

Was sind Inkompatible Kennzahlen?

A

Vereinheitlichung von Kennzahlensystemen

30
Q

Was sind Techniken zur Transformation von Daten?

A

Data-Migration (syntaktische Anpassung)
Data-Scrubbing (semantische Anpassung)

(Data Auditing)

31
Q

Was ist Data-Migration (syntaktische Anpassung)?

A

Alle genannten Konflikte - mit Ausnahme der Benennungskonflikte - werden durch syntaktische Transformation aufgelöst.

Syntaktische Transformationen umfassen ausschließlich Beziehungen zwischen: Datenschemata, bzw. zwischen den zugehörigen Datenobjekttypen und Attributen.

32
Q

Was ist Data-Scrubbing (semantische Anpassung)?

A

Geht um die Beziehung zwischen Objekten der betrieblichen Realität und den Eigenschaftswerten dieser Objekte, die als Daten gespeichert werden.

Werden z.B. für einen bestimmten Kunden (Objekt der betrieblichen Realität) unterschiedliche Schreibweisen seines Namens verwendet, so ist im Rahmen der semantischen Bereinigung eine Vereinheitlichung herbeizuführen

33
Q

Was ist Data Auditing?

A

Als weitere Technik wird häufig Data-Auditing genannt. Dabei geht es um das Auffinden von Beziehungszusammenhängen in Datenbeständen

34
Q

Was sind Aufgaben beim Laden von Daten?

A

Einmalig: Festlegen der Aktualisierungsstrategie für die
interne Aktualisierung des DWH.

Periodisch:
* Überprüfen von (referenziellen) Integritätsbedingungen.
* Sortieren von Daten.
* Aufbauen von Indizes und anderen Zugriffsstrukturen.
* Berechnen von Aggregationen.
* Historisierung von Daten (z.B. durch Zeitstempel).

35
Q

Was sind Aktualisierungsstrategien zum Laden des Data-Warehouse?

A

Immediate Refresh

Deferred Refresh

Snapshot Refresh

gemeint ist eine DWH-externe Datenquelle. Diese kann aus Sicht des jeweiligen Unternehmens eine interne Datenquelle (operative Systeme) oder eine externe Datenquelle sein.

36
Q

Was ist Immediate Refresh?

A

Push-Prinzip

Sofortige Aktualisierung des Data-Warehouse nach einer Modifikation von Daten in einer Datenquelle.

37
Q

Was ist Deferred Refresh?

A

Pull-Prinzip

Die Aktualisierung des Data-Warehouse erfolgt Pull-Prinzip
unmittelbar vor der Bearbeitung der nächsten Anfrage.

38
Q

Was ist Snapshot Refresh?

A

Extern gesteuert

Die Aktualisierung des Data-Warehouse erfolgt periodisch zu bestimmten Zeitpunkten oder beim Eintreten eines bestimmten Ereignisses.

39
Q

Was sind Probleme beim Laden des Data-Warehouse?

A

Problem der zeitlichen Länge des Ladevorgangs

Wiederaufnahme fehlgeschlagener oder unterbrochener
Datenerfassungsprozesse.

40
Q

Was ist das Problem der zeitlichen Länge des Ladevorgangs?

A

Während dieser Zeit können im Allgemeinen keine Anfragen an das Data-Warehouse bearbeitet werden.

Aus diesem Grund wird u.a. eine Trennung zwischen externer und interner Aktualisierung durchgeführt. Während der externen Aktualisierung kann auf die bisherigen Inhalte des Data-Warehouse zugegriffen werden. Lediglich während der internen Aktualisierung ist dies nicht möglich.

Weiter wird versucht, die Zeitdauer für die interne Aktualisierung zu begrenzen.

41
Q

Was ist das Problem der Wiederaufnahme fehlgeschlagener oder unterbrochener Datenerfassungsprozesse?

A

Ein weiteres Problem liegt in der Wiederaufnahme fehlgeschlagener oder unterbrochener Ladeprozesse. Solche Fehler treten z.B. dann auf, wenn beim Laden bestimmte Konflikte nicht aufgelöst werden können. In diesem Fall ist häufig ein manuelles Eingreifen erforderlich. Zum Beispiel kann beim Zusammenführen der neu zu ladenden Daten mit den bereits im Data-Warehouse befindlichen Daten eine Verletzung von referenziellen Integritätsbedingungen auftreten.

42
Q

Welche Werkzeugunterstützung gibt es?

A

SQL-Skripte

Spezielle ETL Werkzeuge

43
Q

Was sind SQL-Skripte?

A

Die einzelnen Transformationen bzw. Schritte werden in Form von SQL-Skripten spezifiziert.

44
Q

Was sind Vor-/Nachteile von SQL-Skripten?

A

V: Keine zusätzlichen Kosten für Werkzeuge

N:
Aufwändige Erstellung und Pflege & fehleranfällig
Keine Einbeziehung von Metadaten

45
Q

Was sind Spezielle ETL Werkzeuge?

A

Die Spezifikation der einzelnen Transformationen bzw. Schritte wird durch ein spezielles ETL-Werkzeug mit grafischer Oberfläche unterstützt.

Beispiele:
* Microsoft – Data Transformation Services (Bestandteil des Microsoft SQL Servers)

46
Q

Was sind Vor-/Nachteile von speziellen ETL Werkzeugen?

A

V:
-Visuelle Unterstützung bei der Spezifikation der einzelnen Schritte und bei der Gestaltung des ETL Prozesses
-leichter erlern- und handhabbar
-Einbeziehung von Metadaten ist möglich.
-Automatische, zeitgesteuerte Ausführung von ETL-Schritten.
-Benachrichtigung (z.B. E-Mail) bei Fehlern

N: Zusätzliche Kosten für Werkzeuge.

47
Q

Was sind Slowly Changing Dimensions (SCD)?

A

Beim Betrieb eines Data-Warehouse-Systems geht man im Allgemeinen davon aus, dass beim Laden ausschließlich Daten hinzugefügt werden. Eine Modifikation oder ein Löschen von Daten findet nicht statt.

Es kann jedoch der Fall eintreten, dass Werte von beschreibenden Attributen einer Dimensionshierarchiestufe im Zeitverlauf verändert werden. Dieser Sachverhalt wird als „Slowly Changing Dimensions“ bezeichnet.

48
Q

Was passiert mit quant./qual. Daten beim Betrieb eines DWHS?

A

Quantitative Daten: Diese werden in die Fakttabellen geladen und über Fremdschlüsselbeziehungen mit den zugehörigen Dimensionselementen der inzelnen Dimensionen auf der untersten Dimensionshierarchiestufe verknüpft.

Qualitative Daten: Soweit die jeweiligen Dimensionselemente in den Dimensionstabellen nicht vorhanden sind, werden sie eingefügt.

49
Q

Welche SCD Typen gibt es?

A

Typ 1: Überschreiben
Typ 2: Partitionierung der Historie
Typ 3: Wechselweise Sachverhalte

50
Q

Was ist Typ 1: Überschreiben?

A

Beim Produkt A1203 wird die Verpackungsart von „Styropor“ auf „Karton“ umgestellt. Die genaue Historie der Werte des Attributs Verpackungsart ist vernachlässigbar.

Behandlung: Der Attributwert wird mit dem neuen Wert überschrieben. Das bedeutet, dass auch Umsätzen, die vor dem Umstellungszeitpunkt erzielt wurden, die neue Verpackungsart zugeordnet ist.

SCD Typ 1 kann Auswirkungen auf aggregierte Fakttabellen haben, falls Aggregationen auf dem geänderten Attibutwert durchgeführt wurden (z.B. Anzahl der Artikel je Verpackungsart).

51
Q

Was ist Typ 2: Partitionierung der Historie?

A

Beispiel: Die Historie der Werte des Attributs ist von Interesse.

Behandlung: Es wird ein neues Tupel in die Dimensionstabelle eingefügt. Voraussetzung dafür ist die Trennung zwischen einem künstlichen Primärschlüssel (Surrogatschlüssel) und einer natürlichen Artikel-ID.

Ab dem Zeitpunkt der Änderung des Attributwerts wird das neue Tupel der Dimensionstabelle mit den zu ladenden Tupeln der Fakttabelle verknüpft.

52
Q

Was ist Typ 3: Wechselweise Sachverhalte?

A

Beispiel: Parallel zu der neuen Verpackungsart soll die alte Form für bestimmte Auswertungen erhalten bleiben.

Behandlung: Es wird ein weiteres Attribut Verpackungsart alt in die Dimensionstabelle aufgenommen. Die bisherigen Attributwerte werden umgespeichert. Das bisherige Attribut Verpackungsart erhält den neuen Wertebereich.

Hinweise:
* Sofern die Dimensionstabelle keine „Reservefelder“ enthält, führt die Behandlung von SCD Typ 3 zu einer Schemaänderung.

  • Die Auswertung des DWH kann wechselweise nach Verpackungsart oder Verpackungsart alt erfolgen.
53
Q

Was ist Data Vault?

A

Data Vault ist eine von Daniel Linstedt um das Jahr 2000 entwickelte Modellierungsmethode, die sich speziell für den ETL-Prozess von Data Warehouses (DWH) eignet.

Mit Data Vault soll der ETL-Prozess weitgehend automatisiert durchgeführt werden.

54
Q

Für welche Data Warehouses ist Data Vault speziell geeignet?

A

Speziell für Enterprise Data Warehouses

55
Q

Welche Modellierungsmerkmale besitzt Data Vault?

A

Modellierung integrierter DWH
Modellierung der Historisierung von DWH
Agile Modellierung von DWH

56
Q

Welche Modellbausteine stellt Data Vault zur Verfügung?

A
  • Hub: bilden Business Keys ab, die Geschäftsobjekte oder Entities repräsentieren,
  • Satellite: beschreiben den Kontext der Geschäftsobjekte.
  • Link: realisieren Beziehungen zwischen Entities
57
Q

Wie lässt sich Data Vault gegenüber anderen Modellierungsansätzen abgrenzen?

A
  • 3NF-Schema: Operationale Systeme (OLTP)
  • Star-Schema: Data Mart (OLAP)
  • Data Vault: Enterprise Data Warehouse (DWH)
58
Q

Was ist die Motivation hinter Data Vault?

A

Zunehmende Integrationsreichweite von DWH, die letztlich zum unternehmensweiten DWH, dem Enterprise Data Warehouse, führt.

Erweiterte Anforderungen an die Historisierung von Daten

Notwendigkeit der Veränderung von DWH auf Schemaebene wichtig, die zur Anforderung nach einer agilen Modellierung führt.

59
Q

Wie ist die Architektur von Data Vault?

A

Data Vault Architektur unterscheidet mehrere übereinander liegende Schemata

Über einer im Allgemeinen nicht persistenten Stage liegen die beiden Data-Vault-Schemata (Raw Data Vault + Business Data Vault), welche zusammen das Enterprise Data Warehouse bilden.

Die Modellbausteine und die zugehörigen Regeln des Data Vault sind so gestaltet, dass eine weitgehend automatisierte Transformation zwischen den Schichten möglich ist.

Auf dem Enterprise Data Warehouse kann es dann Data Marts geben

60
Q

Was ist Raw Data Vault?

A

Das ebenfalls im Allgemeinen nicht persistente Raw Data Vault orientiert sich an der Stage und unterstützt insbesondere das Ziel der Historisierung.

61
Q

Was ist Business Data Vault?

A

Business Data Vault unterstützt die Ableitung der Data- Mart-Schicht und dient den Zielen der Zusammenführung (Integration) und Unterstützung der Agilität.

Business Data Vault ist persistent, d.h. es bleibt von einer Durchführung des ETL-Prozesses zur nächsten erhalten.

62
Q

Welche Modellierungsbausteine gibt es bei Data Vault?

A

Data Vault stellt drei Modellierungsbausteine zur Verfügung:

Hubs bilden Business Keys ab, die Geschäftsobjekte oder Entities repräsentieren

Links realisieren Beziehungen zwischen Entities

Satellites beschreiben den Kontext der Geschäftsobjekte.

Wichtig ist dabei die Exklusivität der Konzepte. So bildet ein Hub nur Business Keys und nichts anderes ab. Dies gilt in gleicher Weise für Links und Satellites.

63
Q

Wie verändert sich ein Data-Vault-Schema?

A

Ein Data-Vault-Schema wächst ausschließlich an. Technisch gesprochen, ist damit nur der Insert-Operator verfügbar, Delete oder auch Update sind untersagt.

64
Q

Was sind die drei wesentlichen Modellierungseigenschaften von Data
Vault?

A

die Integration, die Historisierung und die Agilität

65
Q

Was ist die Historisierte Modellierung mit Data Vault?

A

Ziel der Historisierung ist die beliebige Rekonstrutierbarkeit eines Zeitpunkts oder Zeitraums im Datenbestand des DWH. Voraussetzung hierfür ist eine entsprechende Bildung der Schlüssel auf der Schemaebene

66
Q

Was ist die Agile Modellierung mit Data Vault?

A

Die agile Modellierung eines DWH soll so erfolgen, dass der Satzaufbau niemals geändert werden muss, sondern mithilfe von Insert neue Bestandteile hinzugefügt werden.

67
Q

Wie wächst Data Vault auf Instanz-/Schemaebene an?

A

Auf Instanzebene wächst das Schema unter Beibehaltung der Attribute an. Dies ist durch die Kardinalitäten zwischen Hub und Sat bzw. zwischen Link und Hub möglich.

Die Schemaebene wird verändert, wenn neue Attribute hinzukommen. Fallen alte Attribute weg, so werden sie auf der Instanzebene nicht mehr bedient.

68
Q

Wie ist die Ähnlichkeit zum Entity-Relationship Modell?

A

Die Ähnlichkeit zum klassischen Entity-Relationship-Modell (ERM) ist offensichtlich.

Ein Entity-Typ entspricht einem Hub und den zugehörigen Satellites, allerdings sind diese auf unterschiedliche Tabellen aufgeteilt. Ein Relationship-Typ entspricht einem Link