Gestaltung und Durchführung der Datenerfassung Flashcards

1
Q

ETL

A

Extraktion
Transformation
Laden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Problembereiche der Datenerfassung:

Entwicklungsphase/Schemaebene

A
  • Identifikation der Datenquellen.
  • Syntaktische und semantische Datenintegration.
  • Spezifikation der ETL-Prozeduren für das initiale Laden des DWH.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Problembereiche der Datenerfassung:

Entwicklungsphase/Instanzebene

A
  • Analyse der Qualität der Datenquellen.

* Durchführen eines initialen ETL-Prozesses.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Problembereiche der Datenerfassung:

Nutzungsphase/Schemaebene

A
  • Spezifikation der ETL-Prozeduren für die Aktualisierung des DWH.
  • Anpassung der Datenintegration bei Schemaänderungen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Problembereiche der Datenerfassung:

Nutzungsphase/Instanzebene

A
  • Festlegen der Aktualisierungsstrategien für die externe und interne Aktualisierung des DWH.
  • Durchführung der aktualisierenden ETL-Prozesse.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Aufgaben bei der Datenextraktion

A

Einmalig:
• Festlegen der Aktualisierungsstrategie für die externe Aktualisierung des DWH.

Periodisch:
• Erkennen von Datenänderungen in den Datenquellen.
• Extraktion der Daten aus den Datenquellen.
• Übertragung der Daten in den Arbeitsbereich (Staging-Area) des Data-Warehouse-Systems.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Extraktion: Trigger

A

Das DBVS des operativen Systems benachrichtigt das Data-Warehouse-System bei Datenänderungen mithilfe von Triggerfunktionen. Für jede Basisrelation eines operativen Systems werden Trigger für das (1) Einfügen, (2) Löschen und (3) Ändern von Tupeln definiert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Extraktion: Auswertung von Protokolldateien

A

Die Extraktorkomponente des Data-Warehouse-Systems wertet die Protokolldateien (Log-Files) des DBVS aus und ermittelt erfolgte Datenänderungen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Extraktion: Benachrichtigung durch spezielle Anwendungsfunktionen

A

Spezielle Anwendungsfunktionen der operativen Systeme senden bei einer Datenänderung eine Nachricht an die Extraktorkomponente des Data-
Warehouse-Systems.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Extraktion: Vergleich von Snapshots der Datenquellen

A

Die Extraktorkomponente erstellt in periodischen Zeitabständen einen Snapshot des gesamten Daten-
bestands des Anwendungssystems. Datenänderungen werden durch Vergleich von Snapshots mithilfe modifizierter Verbundalgorithmen erkannt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Konflikte Datenintegration (Schemaintegration)

A
  • Benennungskonflikte (Homonyme und Synonyme bei Tabellendefinitionen und Attributen).
  • Strukturkonflikte (Inkonsistente Primär- und Fremdschlüssel, fehlende Attribute).
  • Datentypkonflikte (Inkompatible Datentypen bzw. Wertebereiche).
  • Codierungskonflikte (Inkompatible Codierung von Eigenschaftswerten).
  • Inkompatible Aggregationen von Kennzahlwerten.
  • Inkompatible Bildung abgeleiteter Kennzahlen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Immediate Refresh

A

Sofortige Aktualisierung des Data-Warehouse nach einer Modifikation von Daten in einer Datenquelle.

Push-Prinzip

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Deferred Refresh

A

Die Aktualisierung des Data-Warehouse erfolgt unmittelbar vor der Bearbeitung der nächsten Anfrage.

Pull-Prinzip

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Snapshot Refresh

A

Die Aktualisierung des Data-Warehouse erfolgt periodisch zu bestimmten Zeitpunkten oder beim Eintreten eines bestimmten Ereignisses.

Extern gesteuert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Slowly Changing Dimensions (SCD)

A

Beim Betrieb eines Data-Warehouse-Systems geht man im Allgemeinen davon aus, dass beim Laden ausschließlich Daten hinzugefügt werden. Eine Modifikation oder ein Löschen von Daten findet nicht statt.

Es kann jedoch der Fall eintreten, dass Werte von beschreibenden Attributen einer Dimensionshierarchiestufe im Zeitverlauf verändert werden. Dieser Sachverhalt wird als „Slowly Changing Dimensions“ bezeichnet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

SCD Typ 1: Überschreiben

A

Das Attribut wird ohne Historisierung überschrieben

17
Q

SCD Typ 2: Partitionierung der Historie

A

Das Attribut wird historisiert, und ab dem Änderungsdatum neu gepflegt

18
Q

SCD Typ 3: Wechselweise Sachverhalte

A

Attribut wird in “Attribut neu” und “Attribut alt” gesplittet

19
Q

Was ist Data Vault?

A

Eine Modellierungsmethode zur Unterstützung des ETL-Prozesses von Data Warehouses (DWH)

Speziell für Enterprise Data Warehouses