Skript 6 Flashcards
Data Warehouse Referenzarchitektur

Wie läuft das Data Warehousing ab
- ETL Prozess, Extraktion, Transformation, Laden (Monitoren auf Veränderungen, die in temporären Arbeitsbereich kopieren, Transformation(Bereinigung, INntegration)laden in integrierte Basisdatenbank (anwendungsabhänging modelliert, Daten Schemaintegration verschiedener Quellen liegen vor)
- Laden der Daten in Anwendungspezifsiches Warehouse
- Eventuell Bereitstellung von Data Marts
- Analysen
Welche zwei Sichtweisen gibt es beim Data Warehousing
Statische Sicht (die wir auch gelenr thaben mit den Systemkompononten)
Dynamische Sicht(Ablauf)
Welche Kriterien sollten Daten erfüllen?
Welche Ansprüche gibt es an Daten im Data Warehouse

Wofür wird der Datawarehouse Manager benötgit
Aufgaben des Data warehouse Manger
Steuerungs und Kontrollkomponente
Doku von Fehlern
Wiederanlaufmechanismen
Steuerung des Ablaufs
Paramter der Komponenten
Aufgabe von Monitoren im Datawarehouse Manager
Entdeckung von Datenupdates in Datenquelle, gibt Hinweise zur Änderung weiter
Wann wird ein Monitor ausgelöst
Es gibt die Möglichkeiten
- trigger basiert
- log basiert
- Zeitstempelbasiert
- Snapshot basiert
Aufgabe des Arbeitsbereiches
Zwischenspeicher zur späteren Integration
Ausführung der Transformationen auf Zwischenspeicher
Welche Komponenten gehören zum ETL Prozess
Extraktion, Transformation, Laden
Extraktion, welche Zugriffsmöglichkeiten auf die Daten gibt es?
3
- Direkter Zugriff auf Datenquelle
- Export /Import
- Direkte Integration
Was ist Data Scrubbing
Ausnutzen von domänenspezifischen Wissen zum Erekennen von Verunreinigungen, z. B. Redundanzen
Was ist Data Auditing
- Anwedung von Data Mining Verfahrne zum Aufdecken von Regeln
- Aufspüren von Abweichungen
Welche Art von Integrationskonflikten gibt es?
- Semantische Konfolikte
- Beschreibungskonflikte
- Heterogenitätskonflikte
- Strukturelle Konflikte
Was sind semantische Konflikte?
Gleiche Objekte werden utnerschiedlich vin verschiedenen Quellen gespeichert
Was sind Beschreibungskonflkte
Das gleiche, aber unterschiedliche mit verschiedenen Attributen beschrieben
Was sind Heterogenitätskonflikte
Unterschiedliche Datenmodelle
Was sind Strukturelle Konflikte
unterschiedliche Modellierung
Welche Eigesnchaften muss ein integrietes Schema erfüllen
- Vollständigkeit (was in lokal beschreiben auch in global)
- Korrektheit (Semantisch, keine Widersprüche)
- Minimalität(keine Redundanzen)
- Verständlichkeit(Dok der Vorgänge)
Aus welchen Phasen besteht der SChmeaangleich
- pre integration
- schema comparions
- schema conforming
- schema merging and restructuting
Aus welchen Komponenten besteht ein Data Warehouse
- Datenbeschaffungsbereich
- Analyskomponenten
- Metadatenamanger
- Date-Warehouse Manager
- Datenbanken
ETL Prozess, kritische SChritte Allgemein und in er Logik
Allgemein
Lade Prozess kann Datenbank blockieren
Transformation sollte effizien gestatlet sein
Logik
- Erkennen von Duplikaten
- Erkennen von Fehlern
- Metriken zur datenqualität
Was macht das Repository
Speichert die Meta Daten des DWH