Grundlagen der Informationsintegration Flashcards
Was ist Selektion (KDD)?
Die für die jeweiligen Analysezwecke relevanten Datenbestände müssen in den operativen Systemen der Unternehmung ausfindig gemacht und ausgewählt werden.
Dabei entsteht eine Auswahl operativer Datenbestände, die bei den weiteren Prozessschritten
Berücksichtigung finden sollen.
Was ist Preprocessing(KDD)?
Die vorausgewählten Datenbestände müssen bereinigt werden, um sie für die weiteren Prozessschritte nutzbar zu machen.
Hierzu zählt beispielsweise das Entfernen irrelevanter Datensätze und die Erkennung und Eliminierung von Duplikaten in den einzelnen Datenbeständen.
Was ist Transformation(KDD)?
Die aufbereiteten Datenbestände müssen in ein für die
Datenanalyse geeignetes, einheitliches Datenschema überführt werden.
Dabei muss das einheitliche Datenschema so gestaltet sein, dass die einzelnen Schemaelemente (Entitätstypen, Attribute, Beziehungen etc.) eine für den Gegenstandsbereich der Analyse eindeutige Bedeutung und Bezeichnung aufweisen, sodass alle beteiligten Personen und Anwendungssysteme ein klares Verständnis der in den Daten enthaltenen Informationen entwickeln können.
Was ist Data Mining(KDD)?
Der integrierte Datenbestand muss mithilfe statistischer Analysemethoden auf Auffälligkeiten untersucht werden, um interessante Muster in den Daten aufspüren zu können.
„Interessant“ bedeutet dabei im Wesentlichen, dass die gefundenen Erkenntnisse für die strategische Entscheidungsfindung des Unternehmens relevant und bisher nicht bekannt (oder zumindest nicht statistisch belegt) waren.
Was ist Intepretation/Evaluation(KDD)?
Die gefundenen statistischen Zusammenhänge müssen schließlich hinsichtlich ihrer Aussagekraft (Signifikanz, Generalität, Validität) überprüft und entsprechend der betrieblichen Gegebenheiten interpretiert werden, sodass ein konkreter betrieblich relevanter Erkenntnisgewinn erfolgen kann.
Welche Fragen müssen beantwortet werden um den KDD Prozess erfolgreich durchführen zu können?
Wie können Informationen aus mehreren operativen IS integriert werden?
Wie kann ein einheitlicher Datenbestand für Führungs-IS generiert werden?
Wie kann dieser Datenbestand gespeichert und verwaltet werden?
Mit welchen Verfahren kann dieser Datenbestand analysiert werden?
Wie können die Analyseergebnisse generiert und evaluiert werden?
Wie können die gewonnenen Erkenntnisse visuell präsentiert werden?
Was verursacht die Heterogenität der Daten?
Oft historisch gewachsen, dadurch ist eine holistische Betrachtung des Gesamtdatenbestands nur möglich wenn die Daten aus den unterschiedlichen Datenquellen zusammengeführt werden.
Welche Schritte sind erforderlich um anhand der Daten aus den operativen IS strategische Managemententscheidungen treffen zu können?
Zwei Integrationsschritte
Schemaintegration (Erstellung eines einheitlichen semantischen Datenmodells für die zusammenzuführenden Datenbestände sowie mit der Überführung der Schemata der einzelnen Datenquellen in dieses einheitliche Datenmodell):
- Schemagenerierung - nachträgliches Erstellen eines Schemas zu vorhandenen Daten
- Schema Mapping - Zusammenführen mehrerer unterschiedlicher Schemata
- Semantische Integration - Erstellung eines globalen Schemas mit einheitlicher Semantik
Datenintegration (behandelt die Überführung der eigentlichen Datensätze aus den Datenquellen in das einheitliche Datenschema):
- Datenreinigung - Extraktion und Aufbereitung relevanter Datensätze
- Duplikaterkennung - Verschmelzung von semantisch äquivalenten Datensätzen
- Datenfusion - Überführung der einzelnen Datensätze in das globale Schema
Was ist Informationsintegration?
Schemaintegration + Datenintegration
Wie ist der Stand der Forschung zu Informationsintegration?
Die Integration von Daten verschiedener Quellen ist eines der anhaltendsten Probleme der
Datenbankforschung. Sie ist nicht nur ein Problem fast aller großen Unternehmen, sondern die Forschung wird auch von der Aussicht angetrieben, Datenbestände innerhalb von Unternehmen mit ( öffentlichen) Datenbeständen aus dem Web zu integrieren.
In den letzten Jahren wurden allerdings signifikante Fortschritte bei der Informationsintegration erzielt, von
konzeptionellen und algorithmischen Aspekten bis hin zu Systemen und kommerziellen Lösungen
Was sind Probleme der Informationsintegration?
Verteilung
Autonomie
Heterogenität
Was ist das Problem der Verteilung?
Unter der Verteilung von Daten ist zu verstehen, dass diese auf unterschiedliche Datenmanagementsysteme aufgeteilt sind
Hierzu zählt zum einen die physische Verteilung d h die Aufteilung der Datenbasis auf verschiedene (häufig geographisch entfernte) Systeme, und zum anderen die logische Verteilung d h das Vorhandensein mehrerer Speicherorte pro Datensatz
Was ist das Problem der Autonomie?
Autonome Datenquellen sind Systeme, die innerhalb einer Unternehmung unabhängig voneinander verschiedene Datenbasen verwalten.
Hierzu zählt einerseits die Design und Zugriffsautonomie also die Eigenständigkeit des Systems bei der Frage, welchen Personen oder Anwendungssystemen es Zugriff auf welche Bestandteile der Datenbasis gewährt, sowie
andererseits die Schnittstellenautonomie die bedeutet, dass das System eine eigenständige
(womöglich proprietäre) Schnittstelle für den Datenzugriff bereitstellt, die häufig nicht mit anderen
Systemen kompatibel ist
Was ist das Problem der Heterogenität?
Datenmanagementsysteme werden als heterogen bezeichnet, wenn ihre Datenverwaltungsmechanismen auf unterschiedlichen Modellen und Strukturen sowie
technischen Zugriffsverfahren basieren.
Die Modellierungsheterogenität kann sich beispielsweise darin äußern, dass den Systemen unterschiedliche Datenmodelle (z B relational vs graphbasiert) oder unterschiedliche Datenschemata zugrunde liegen, während technische Heterogenität
bedeutet, dass unterschiedliche Verfahren (z B SQL vs REST basiert) beim Zugriff auf die Datenbasis verwendet werden müssen
Wie hängen die Probleme zusammen?
Während Heterogenität und Verteilung orthogonale Konzepte sind, d h unabhängig voneinander
auftreten können, sind die Grade von Autonomie und Heterogenität der Datenmanagementsysteme
zumeist korreliert, da Autonomie ursächlich für Heterogenität ist.
Datenquellen fast immer hinsichtlich Datenmodell, Datenschema oder Zugriffsschnittstelle heterogen
sind, wenn diese völlig unabhängig voneinander konzipiert wurden, selbst wenn die Semantik der
Datenbasen ähnlich oder gar einheitlich ist.
Zu beachten ist, dass die genannten Eigenschaften der Datenmanagementsysteme im operativen
Betrieb häufig nicht versehentlich oder unwillentlich, sondern gezielt eingesetzt werden, um den
unterschiedlichen Anforderungen des operativen Geschäfts gerecht zu werden (vgl polyglot
persistence)