2. Datenbereitstellung und -modellierung Flashcards
Was ist das Differential Snapshot Problem?
Viele Quellen liefern immer den vollen Datenbestand
- Ständiges Übertragen aller Daten ist jedoch ineffizient
- Duplikate müssen erkannt werden!
Was ist die Aufgabe des Transformationsprozess? In welche vier Bereiche lässt er sich unterteilen?
Prüfung und Modifikation der in das DWH zu übertragenden Daten, sodass die Anforderungen des DWH Konzeptes und der Anwender erfullt werden.
- Verknüpfung der Datensätze aus versch. Vorsystemen
- Harmonisierung der Quellbestände
- Zuordnung von Quell- zu Zieldatenobjekten
- Bereinigung der Daten
Auf welchen Gesichtspunkten liegt der Fokus des Transformationsprozesses?
- Daten
- Schemata
- Datenqualität
Was ist bei der Verknüpfung der Datensätze aus Vorsystemen zu beachten? (3 Punkte)
- Semantik
- z.B. Abkürzungen, Synonyme, fehlender Kontext
- Datenmodellintegration
- Unterschiedliche Ausdrucksmächtigkeit von Datenmodellen (z.B. relational, objektorientiert, XML, semistrukturiert).
- Harmonisierung
- z.B. Datentypkonversion, Kodierung, Aggregierung etc.
Wie lautet die Definition von Data Cleansing?
Data Cleansing ist der Prozess der Identifikation und Beseitigung von Fehlern, Inkonsistenzen und (unerwünschten) Redundanzen in den in das DWH zu übernehmenden und schon übernommenen Daten.
Wie lauten die „8 rights“ der Datenqualität?
- Die richtigen Daten,
- Daten, die der Anwender benötigt
- mit der richtigen Vollständigkeit,
- Die Gesamtheit, der Daten, die der Anwender benötigt
- im richtigen Zusammenhang,
- Die Daten, deren Bedeutung der Anwender kennt
- mit der richtigen Korrektheit,
- Daten, denen der Anwender trauen kann
- in der richtigen Darstellung,
- Die Darstellung, die der Anwender leicht nutzen kann
- zum richtigen Zeitpunkt,
- Dann, wenn der Anwender die Daten braucht
- am richtigen Ort,
- Wo der Anwender sie braucht
- für den richtigen Zweck!
- Daten, mit denen er seine Ziele erfüllen kann
Was erhöht neben Data Cleansing die Datenqualität?
Einhaltung definierter Qualitätsstandards beim Entstehen, Eingeben und Verarbeiten der Daten.