Grundlagen der Informationsintegration Flashcards
Was ist Selektion (KDD)?
Die für die jeweiligen Analysezwecke relevanten Datenbestände müssen in den operativen Systemen der Unternehmung ausfindig gemacht und ausgewählt werden.
Dabei entsteht eine Auswahl operativer Datenbestände, die bei den weiteren Prozessschritten
Berücksichtigung finden sollen.
Was ist Preprocessing(KDD)?
Die vorausgewählten Datenbestände müssen bereinigt werden, um sie für die weiteren Prozessschritte nutzbar zu machen.
Hierzu zählt beispielsweise das Entfernen irrelevanter Datensätze und die Erkennung und Eliminierung von Duplikaten in den einzelnen Datenbeständen.
Was ist Transformation(KDD)?
Die aufbereiteten Datenbestände müssen in ein für die
Datenanalyse geeignetes, einheitliches Datenschema überführt werden.
Dabei muss das einheitliche Datenschema so gestaltet sein, dass die einzelnen Schemaelemente (Entitätstypen, Attribute, Beziehungen etc.) eine für den Gegenstandsbereich der Analyse eindeutige Bedeutung und Bezeichnung aufweisen, sodass alle beteiligten Personen und Anwendungssysteme ein klares Verständnis der in den Daten enthaltenen Informationen entwickeln können.
Was ist Data Mining(KDD)?
Der integrierte Datenbestand muss mithilfe statistischer Analysemethoden auf Auffälligkeiten untersucht werden, um interessante Muster in den Daten aufspüren zu können.
„Interessant“ bedeutet dabei im Wesentlichen, dass die gefundenen Erkenntnisse für die strategische Entscheidungsfindung des Unternehmens relevant und bisher nicht bekannt (oder zumindest nicht statistisch belegt) waren.
Was ist Intepretation/Evaluation(KDD)?
Die gefundenen statistischen Zusammenhänge müssen schließlich hinsichtlich ihrer Aussagekraft (Signifikanz, Generalität, Validität) überprüft und entsprechend der betrieblichen Gegebenheiten interpretiert werden, sodass ein konkreter betrieblich relevanter Erkenntnisgewinn erfolgen kann.
Welche Fragen müssen beantwortet werden um den KDD Prozess erfolgreich durchführen zu können?
Wie können Informationen aus mehreren operativen IS integriert werden?
Wie kann ein einheitlicher Datenbestand für Führungs-IS generiert werden?
Wie kann dieser Datenbestand gespeichert und verwaltet werden?
Mit welchen Verfahren kann dieser Datenbestand analysiert werden?
Wie können die Analyseergebnisse generiert und evaluiert werden?
Wie können die gewonnenen Erkenntnisse visuell präsentiert werden?
Was verursacht die Heterogenität der Daten?
Oft historisch gewachsen, dadurch ist eine holistische Betrachtung des Gesamtdatenbestands nur möglich wenn die Daten aus den unterschiedlichen Datenquellen zusammengeführt werden.
Welche Schritte sind erforderlich um anhand der Daten aus den operativen IS strategische Managemententscheidungen treffen zu können?
Zwei Integrationsschritte
Schemaintegration (Erstellung eines einheitlichen semantischen Datenmodells für die zusammenzuführenden Datenbestände sowie mit der Überführung der Schemata der einzelnen Datenquellen in dieses einheitliche Datenmodell):
- Schemagenerierung - nachträgliches Erstellen eines Schemas zu vorhandenen Daten
- Schema Mapping - Zusammenführen mehrerer unterschiedlicher Schemata
- Semantische Integration - Erstellung eines globalen Schemas mit einheitlicher Semantik
Datenintegration (behandelt die Überführung der eigentlichen Datensätze aus den Datenquellen in das einheitliche Datenschema):
- Datenreinigung - Extraktion und Aufbereitung relevanter Datensätze
- Duplikaterkennung - Verschmelzung von semantisch äquivalenten Datensätzen
- Datenfusion - Überführung der einzelnen Datensätze in das globale Schema
Was ist Informationsintegration?
Schemaintegration + Datenintegration
Wie ist der Stand der Forschung zu Informationsintegration?
Die Integration von Daten verschiedener Quellen ist eines der anhaltendsten Probleme der
Datenbankforschung. Sie ist nicht nur ein Problem fast aller großen Unternehmen, sondern die Forschung wird auch von der Aussicht angetrieben, Datenbestände innerhalb von Unternehmen mit ( öffentlichen) Datenbeständen aus dem Web zu integrieren.
In den letzten Jahren wurden allerdings signifikante Fortschritte bei der Informationsintegration erzielt, von
konzeptionellen und algorithmischen Aspekten bis hin zu Systemen und kommerziellen Lösungen
Was sind Probleme der Informationsintegration?
Verteilung
Autonomie
Heterogenität
Was ist das Problem der Verteilung?
Unter der Verteilung von Daten ist zu verstehen, dass diese auf unterschiedliche Datenmanagementsysteme aufgeteilt sind
Hierzu zählt zum einen die physische Verteilung d h die Aufteilung der Datenbasis auf verschiedene (häufig geographisch entfernte) Systeme, und zum anderen die logische Verteilung d h das Vorhandensein mehrerer Speicherorte pro Datensatz
Was ist das Problem der Autonomie?
Autonome Datenquellen sind Systeme, die innerhalb einer Unternehmung unabhängig voneinander verschiedene Datenbasen verwalten.
Hierzu zählt einerseits die Design und Zugriffsautonomie also die Eigenständigkeit des Systems bei der Frage, welchen Personen oder Anwendungssystemen es Zugriff auf welche Bestandteile der Datenbasis gewährt, sowie
andererseits die Schnittstellenautonomie die bedeutet, dass das System eine eigenständige
(womöglich proprietäre) Schnittstelle für den Datenzugriff bereitstellt, die häufig nicht mit anderen
Systemen kompatibel ist
Was ist das Problem der Heterogenität?
Datenmanagementsysteme werden als heterogen bezeichnet, wenn ihre Datenverwaltungsmechanismen auf unterschiedlichen Modellen und Strukturen sowie
technischen Zugriffsverfahren basieren.
Die Modellierungsheterogenität kann sich beispielsweise darin äußern, dass den Systemen unterschiedliche Datenmodelle (z B relational vs graphbasiert) oder unterschiedliche Datenschemata zugrunde liegen, während technische Heterogenität
bedeutet, dass unterschiedliche Verfahren (z B SQL vs REST basiert) beim Zugriff auf die Datenbasis verwendet werden müssen
Wie hängen die Probleme zusammen?
Während Heterogenität und Verteilung orthogonale Konzepte sind, d h unabhängig voneinander
auftreten können, sind die Grade von Autonomie und Heterogenität der Datenmanagementsysteme
zumeist korreliert, da Autonomie ursächlich für Heterogenität ist.
Datenquellen fast immer hinsichtlich Datenmodell, Datenschema oder Zugriffsschnittstelle heterogen
sind, wenn diese völlig unabhängig voneinander konzipiert wurden, selbst wenn die Semantik der
Datenbasen ähnlich oder gar einheitlich ist.
Zu beachten ist, dass die genannten Eigenschaften der Datenmanagementsysteme im operativen
Betrieb häufig nicht versehentlich oder unwillentlich, sondern gezielt eingesetzt werden, um den
unterschiedlichen Anforderungen des operativen Geschäfts gerecht zu werden (vgl polyglot
persistence)
Wann entstehen Probleme mit der physischen Verteilung von Daten und was sind die Probleme?
Die physische Verteilung von Daten entsteht üblicherweise, wenn viele unabhängig voneinander
operierende Systeme parallel eingesetzt werden,
Physische Lokalisierung: Die physisch verteilten Datensätze müssen auffindbar sein. Dies geschieht zumeist durch die Verwendung von global eindeutigen Identifikatoren wie URIs.
Adressierung mehrerer Schemata: Eine physisch verteilte Datenbasis unterliegt nicht zwingend einem global einheitlichen Datenschema. Es ist sogar äußerst wahrscheinlich, dass den verteilten Datenbeständen unterschiedliche Schemata zugrunde liegen. Um diese miteinander in Einklang zu bringen, ist die so genannte Schemaintegration erforderlich.
Optimierung verteilter Anfragen: Wie im vorherigen Kapitel zum verteilten Datenmanagement erläutert, ist in Szenarien, wo Daten über verschiedene Knoten in einem Netzwerk verteilt sind, zumeist die Netzwerkzugriffszeit der limitierende Faktor bezüglich der Anfragegeschwindigkeit.
Daher muss bei der Anfrage der verschiedenen Systeme die Anzahl der Netzwerkzugriffe möglichst klein gehalten werden
Wann entstehen Probleme mit der logischen Verteilung von Daten und was sind die Probleme?
Während physische Verteilung beschreibt, dass unterschiedliche Datensätze über verschiedene
Speicherorte verteilt sind, bedeutet logische Verteilung dass identische Datensätze an verschiedenen Stellen
im Gesamtsystem liegen können:
Logische Lokalisierung: Auch bei der logischen Verteilung ist die Datenlokalisation ein Problem. Allerdings besteht dieses Problem im Gegensatz zur physischen Verteilung bei der logischen Verteilung nicht darin, den Datensatz in einer verteilten Systemlandschaft zu finden, sondern vielmehr darin, herauszufinden, in welchem System überhaupt der richtige Datensatz liegt.
Redundanzen und Inkonsistenzen: Die mehrfache Speicherung identischer Datensätze wird auch als redundante Speicherung von Datensätzen bezeichnet Dies kann im Zusammenhang mit dateibasierter Datenverwaltung, dazu führen, dass die Daten
inkonsistent werden, also Widersprüche enthalten
Duplikaterkennung: Ein drittes Problem der logischen Verteilung besteht darin (automatisch) zu erkennen, dass doppelt abgespeicherte Datensätze semantisch identisch sind und daher als inhaltlich äquivalent zu behandeln sind
Wozu führt das unabhängige anlegen von relevanten Datenquellen?
Fast immer zu Modellierungs- und/oder struktureller Heterogenität
Wann sind DMS autonom?
Wenn sie min. eine der folgenden Eigenschaften erfüllen:
Designautonomie: Das System entscheidet selbst (d h unabhängig von den Anforderungen darauf aufbauender oder davon abhängiger Systeme), in welcher Form es die gespeicherten Daten bereitstellt
Zugriffsautonomie: Das System entscheidet selbst, wem, d h welchen Personen und/oder Anwendungssystemen, es Zugriff auf die Daten gewährt
Schnittstellenautonomie: Das System stellt eine nicht auf die Bedürfnisse der darauf aufbauenden oder davon abhängigen Anwendungssysteme abgestimmte Schnittstelle für den Datenzugriff bereit
Was passiert wenn die Autonomieeigenschaften innerhalb einer betrieblichen Systemlandschaft gegeben sind?
Gast unweigerlich Heterogenität des Datenbestands zur Folge
Was gehört zur Heterogenität verteilter Datenquellen?
Modellierungsheterogenität (Datenbestände unterscheiden sich strukturell und semantisch)
Technische Heterogenität
(Keine einheitliche Zugriffsschnittstelle auf die Datenbestände z.B. SQL vs REST)
Was gehört zur Modellierungsheterogenität?
Datenmodellheterogenität: Es kommen unterschiedliche Datenmodelle vor, z B
relational vs graphorientiert
Strukturheterogenität: Die Struktur der Datenschemata ist unterschiedlich, d h die vorkommenden Entitätstypen, Attribute und Beziehungen weichen voneinander ab
Semantische Heterogenität: Die Schema und Datenelemente der Datenbasis werden auf unterschiedliche Weise interpretiert Beispielsweise kann der Begriff „Umsatz” unterschiedlich interpretiert werden (zugrundeliegender Zeitraum, berücksichtigte
Zahlungsströme, angegebene Währung etc
Was ist die Schemaintegration?
Die Schemaintegration umfasst alle notwendigen Schritte, um heterogene Datenschemata
verschiedener Datenquellen derart aufeinander abzubilden, dass Zusammenhänge zwischen den
einzelnen Schemaelementen gefunden werden und die betreffenden Elemente dementsprechend
aufeinander abgebildet werden können.
Ziel der Schemaintegration ist es, eine Menge von
Übereinstimmungen zwischen den beteiligten Schemata zu ermitteln und anzugeben, sodass die
jeweiligen Datenbestände anschließend passend zusammengeführt integriert werden können
Was muss sichergestellt werden bevor mit der Integration mehrerer Schemata begonnen werden kann?
Dass zu jeder zu berücksichtigenden Datenquelle überhaupt ein Datenschema bekannt ist.
Während dies bei relationalen Datenbanken und zumeist auch bei Graphdatenbanken implizit
sichergestellt ist, verfügen semi strukturierte Datenspeicher wie beispielsweise Dokumentendatenbanken meist nicht über ein explizit spezifiziertes Datenschema