Datenintegration Flashcards
Beispiele für Datenintegration
- Bereitstellen von Kundendaten für Mitarbeiter am Schalter
- Daten aus unterschiedlichen Quellen für Analyse in einem Data Warehouse zusammenbringen
Prozess zur Integration von Daten
- periodisch Daten transportieren und Konflikte erkennen
- Daten bereinigen
- Konsistenz prüfen und ggf. wiederherstellen + Daten in Quellen zurückführen
- Daten synchronisieren
Intension eines Informationssystems
Menge der Schemainformationen und deren Semantik (Datenschemata und Metadaten)
Extension eines Informationsystems
Menge der in ihm gespeicherten Daten
Klassen von Integrationskonflikten
Konflikte im Datenmodell
-Unterschiedliche Struktur Beschreibung
-Unterschiedliche Ausdrucksmächtigkeit
-Unterschiedliche Integritätsbedingungen
Konflikte im Schema
-Modellierungskonflikte
->Strukturelle Konflikte
->Beschreibungskonflikte
Datenkonflikte
-Veraltete Einträge mit unterschiedlichen Schema
Details und Integritätsbedingungen
-Gleiche Repräsentation, aber unterschiedliche
Semantik
-Gleicht Repräsentation und Semantik, aber
unterschiedliche Details
-Dubletten mit unterschiedlichen Informationen
Arten von Beschreibungskonflikten
- Unterschiedliche Attribute
- Homonyme
- Synonyme
- unterschiedliche Datentypen
- Skalierungen
- Genauigkeit
- Integritätsbedingungen
Qualitätseigenschaften von Daten
- Korrektheit
- Konsistenz
- Zuverlässigkeit
- Vollständigkeit
- Genauigkeit
- Aktualität
Schema on Write
-Beim Eintragen von Daten in eine relationale Datenbank haben Daten bereits ein festgelegtes Schema (vorher angelegt)
+schnelle Queries
-nicht flexibel
+strukturiert (leicht lesbar)
-SQL
Schema on Read
-Beim Eintragen von Daten in eine NoSQL-Datenbank sind diese schemalos (Struktur wird erst beim Lesen aus der DB erstellt)
-langsamere Queries
+sehr flexibel
-unstrukturiert
-NoSQL
Top-Down Ansatz für Zielschemata
- man hat bereits ein Zielschema, das abgebildet werden soll
- Anwendungen können sich ändern
Bottom-Up Ansatz für Zielschemata
- unterschiedlich strukturierte Datenmodelle, die man zusammenführt
- Beachten von Geschäftsobjekten
- Daten bleiben stabil und Änderungen sind nicht zu erwarten (aber Erweiterung möglich)
- Mehrere Quellen integriert abfragen
ETL-Prozess
Extract-Transform-Load
-Daten werden aus unterschiedlichen Datenquellen herausgelesen und extrahiert
(synchron vs. asynchron (periodisch vs.
ereignisgesteuert))
-Herausgelesene Daten werden validiert, transformiert und Redundanzen entfernt/gefiltert/ergänzt
-Bereinigte Daten werden ins Data Warehouse oder zugehörige DB hochgeladen