Grundlagen der Informationsintegration Flashcards

1
Q

Was ist Selektion (KDD)?

A

Die für die jeweiligen Analysezwecke relevanten Datenbestände müssen in den operativen Systemen der Unternehmung ausfindig gemacht und ausgewählt werden.

Dabei entsteht eine Auswahl operativer Datenbestände, die bei den weiteren Prozessschritten
Berücksichtigung finden sollen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist Preprocessing(KDD)?

A

Die vorausgewählten Datenbestände müssen bereinigt werden, um sie für die weiteren Prozessschritte nutzbar zu machen.

Hierzu zählt beispielsweise das Entfernen irrelevanter Datensätze und die Erkennung und Eliminierung von Duplikaten in den einzelnen Datenbeständen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist Transformation(KDD)?

A

Die aufbereiteten Datenbestände müssen in ein für die
Datenanalyse geeignetes, einheitliches Datenschema überführt werden.

Dabei muss das einheitliche Datenschema so gestaltet sein, dass die einzelnen Schemaelemente (Entitätstypen, Attribute, Beziehungen etc.) eine für den Gegenstandsbereich der Analyse eindeutige Bedeutung und Bezeichnung aufweisen, sodass alle beteiligten Personen und Anwendungssysteme ein klares Verständnis der in den Daten enthaltenen Informationen entwickeln können.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist Data Mining(KDD)?

A

Der integrierte Datenbestand muss mithilfe statistischer Analysemethoden auf Auffälligkeiten untersucht werden, um interessante Muster in den Daten aufspüren zu können.

„Interessant“ bedeutet dabei im Wesentlichen, dass die gefundenen Erkenntnisse für die strategische Entscheidungsfindung des Unternehmens relevant und bisher nicht bekannt (oder zumindest nicht statistisch belegt) waren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist Intepretation/Evaluation(KDD)?

A

Die gefundenen statistischen Zusammenhänge müssen schließlich hinsichtlich ihrer Aussagekraft (Signifikanz, Generalität, Validität) überprüft und entsprechend der betrieblichen Gegebenheiten interpretiert werden, sodass ein konkreter betrieblich relevanter Erkenntnisgewinn erfolgen kann.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Welche Fragen müssen beantwortet werden um den KDD Prozess erfolgreich durchführen zu können?

A

Wie können Informationen aus mehreren operativen IS integriert werden?

Wie kann ein einheitlicher Datenbestand für Führungs-IS generiert werden?

Wie kann dieser Datenbestand gespeichert und verwaltet werden?

Mit welchen Verfahren kann dieser Datenbestand analysiert werden?

Wie können die Analyseergebnisse generiert und evaluiert werden?

Wie können die gewonnenen Erkenntnisse visuell präsentiert werden?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was verursacht die Heterogenität der Daten?

A

Oft historisch gewachsen, dadurch ist eine holistische Betrachtung des Gesamtdatenbestands nur möglich wenn die Daten aus den unterschiedlichen Datenquellen zusammengeführt werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Welche Schritte sind erforderlich um anhand der Daten aus den operativen IS strategische Managemententscheidungen treffen zu können?

A

Zwei Integrationsschritte

Schemaintegration (Erstellung eines einheitlichen semantischen Datenmodells für die zusammenzuführenden Datenbestände sowie mit der Überführung der Schemata der einzelnen Datenquellen in dieses einheitliche Datenmodell):

  1. Schemagenerierung - nachträgliches Erstellen eines Schemas zu vorhandenen Daten
  2. Schema Mapping - Zusammenführen mehrerer unterschiedlicher Schemata
  3. Semantische Integration - Erstellung eines globalen Schemas mit einheitlicher Semantik

Datenintegration (behandelt die Überführung der eigentlichen Datensätze aus den Datenquellen in das einheitliche Datenschema):

  1. Datenreinigung - Extraktion und Aufbereitung relevanter Datensätze
  2. Duplikaterkennung - Verschmelzung von semantisch äquivalenten Datensätzen
  3. Datenfusion - Überführung der einzelnen Datensätze in das globale Schema
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist Informationsintegration?

A

Schemaintegration + Datenintegration

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wie ist der Stand der Forschung zu Informationsintegration?

A

Die Integration von Daten verschiedener Quellen ist eines der anhaltendsten Probleme der
Datenbankforschung. Sie ist nicht nur ein Problem fast aller großen Unternehmen, sondern die Forschung wird auch von der Aussicht angetrieben, Datenbestände innerhalb von Unternehmen mit ( öffentlichen) Datenbeständen aus dem Web zu integrieren.

In den letzten Jahren wurden allerdings signifikante Fortschritte bei der Informationsintegration erzielt, von
konzeptionellen und algorithmischen Aspekten bis hin zu Systemen und kommerziellen Lösungen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was sind Probleme der Informationsintegration?

A

Verteilung

Autonomie

Heterogenität

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was ist das Problem der Verteilung?

A

Unter der Verteilung von Daten ist zu verstehen, dass diese auf unterschiedliche Datenmanagementsysteme aufgeteilt sind

Hierzu zählt zum einen die physische Verteilung d h die Aufteilung der Datenbasis auf verschiedene (häufig geographisch entfernte) Systeme, und zum anderen die logische Verteilung d h das Vorhandensein mehrerer Speicherorte pro Datensatz

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was ist das Problem der Autonomie?

A

Autonome Datenquellen sind Systeme, die innerhalb einer Unternehmung unabhängig voneinander verschiedene Datenbasen verwalten.

Hierzu zählt einerseits die Design und Zugriffsautonomie also die Eigenständigkeit des Systems bei der Frage, welchen Personen oder Anwendungssystemen es Zugriff auf welche Bestandteile der Datenbasis gewährt, sowie
andererseits die Schnittstellenautonomie die bedeutet, dass das System eine eigenständige
(womöglich proprietäre) Schnittstelle für den Datenzugriff bereitstellt, die häufig nicht mit anderen
Systemen kompatibel ist

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist das Problem der Heterogenität?

A

Datenmanagementsysteme werden als heterogen bezeichnet, wenn ihre Datenverwaltungsmechanismen auf unterschiedlichen Modellen und Strukturen sowie
technischen Zugriffsverfahren basieren.

Die Modellierungsheterogenität kann sich beispielsweise darin äußern, dass den Systemen unterschiedliche Datenmodelle (z B relational vs graphbasiert) oder unterschiedliche Datenschemata zugrunde liegen, während technische Heterogenität
bedeutet, dass unterschiedliche Verfahren (z B SQL vs REST basiert) beim Zugriff auf die Datenbasis verwendet werden müssen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wie hängen die Probleme zusammen?

A

Während Heterogenität und Verteilung orthogonale Konzepte sind, d h unabhängig voneinander
auftreten können, sind die Grade von Autonomie und Heterogenität der Datenmanagementsysteme
zumeist korreliert, da Autonomie ursächlich für Heterogenität ist.

Datenquellen fast immer hinsichtlich Datenmodell, Datenschema oder Zugriffsschnittstelle heterogen
sind, wenn diese völlig unabhängig voneinander konzipiert wurden, selbst wenn die Semantik der
Datenbasen ähnlich oder gar einheitlich ist.

Zu beachten ist, dass die genannten Eigenschaften der Datenmanagementsysteme im operativen
Betrieb häufig nicht versehentlich oder unwillentlich, sondern gezielt eingesetzt werden, um den
unterschiedlichen Anforderungen des operativen Geschäfts gerecht zu werden (vgl polyglot
persistence)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wann entstehen Probleme mit der physischen Verteilung von Daten und was sind die Probleme?

A

Die physische Verteilung von Daten entsteht üblicherweise, wenn viele unabhängig voneinander
operierende Systeme parallel eingesetzt werden,

Physische Lokalisierung: Die physisch verteilten Datensätze müssen auffindbar sein. Dies geschieht zumeist durch die Verwendung von global eindeutigen Identifikatoren wie URIs.

Adressierung mehrerer Schemata: Eine physisch verteilte Datenbasis unterliegt nicht zwingend einem global einheitlichen Datenschema. Es ist sogar äußerst wahrscheinlich, dass den verteilten Datenbeständen unterschiedliche Schemata zugrunde liegen. Um diese miteinander in Einklang zu bringen, ist die so genannte Schemaintegration erforderlich.

Optimierung verteilter Anfragen: Wie im vorherigen Kapitel zum verteilten Datenmanagement erläutert, ist in Szenarien, wo Daten über verschiedene Knoten in einem Netzwerk verteilt sind, zumeist die Netzwerkzugriffszeit der limitierende Faktor bezüglich der Anfragegeschwindigkeit.
Daher muss bei der Anfrage der verschiedenen Systeme die Anzahl der Netzwerkzugriffe möglichst klein gehalten werden

17
Q

Wann entstehen Probleme mit der logischen Verteilung von Daten und was sind die Probleme?

A

Während physische Verteilung beschreibt, dass unterschiedliche Datensätze über verschiedene
Speicherorte verteilt sind, bedeutet logische Verteilung dass identische Datensätze an verschiedenen Stellen
im Gesamtsystem liegen können:

Logische Lokalisierung: Auch bei der logischen Verteilung ist die Datenlokalisation ein Problem. Allerdings besteht dieses Problem im Gegensatz zur physischen Verteilung bei der logischen Verteilung nicht darin, den Datensatz in einer verteilten Systemlandschaft zu finden, sondern vielmehr darin, herauszufinden, in welchem System überhaupt der richtige Datensatz liegt.

Redundanzen und Inkonsistenzen: Die mehrfache Speicherung identischer Datensätze wird auch als redundante Speicherung von Datensätzen bezeichnet Dies kann im Zusammenhang mit dateibasierter Datenverwaltung, dazu führen, dass die Daten
inkonsistent werden, also Widersprüche enthalten

Duplikaterkennung: Ein drittes Problem der logischen Verteilung besteht darin (automatisch) zu erkennen, dass doppelt abgespeicherte Datensätze semantisch identisch sind und daher als inhaltlich äquivalent zu behandeln sind

18
Q

Wozu führt das unabhängige anlegen von relevanten Datenquellen?

A

Fast immer zu Modellierungs- und/oder struktureller Heterogenität

19
Q

Wann sind DMS autonom?

A

Wenn sie min. eine der folgenden Eigenschaften erfüllen:

Designautonomie: Das System entscheidet selbst (d h unabhängig von den Anforderungen darauf aufbauender oder davon abhängiger Systeme), in welcher Form es die gespeicherten Daten bereitstellt

Zugriffsautonomie: Das System entscheidet selbst, wem, d h welchen Personen und/oder Anwendungssystemen, es Zugriff auf die Daten gewährt

Schnittstellenautonomie: Das System stellt eine nicht auf die Bedürfnisse der darauf aufbauenden oder davon abhängigen Anwendungssysteme abgestimmte Schnittstelle für den Datenzugriff bereit

20
Q

Was passiert wenn die Autonomieeigenschaften innerhalb einer betrieblichen Systemlandschaft gegeben sind?

A

Gast unweigerlich Heterogenität des Datenbestands zur Folge

21
Q

Was gehört zur Heterogenität verteilter Datenquellen?

A

Modellierungsheterogenität (Datenbestände unterscheiden sich strukturell und semantisch)

Technische Heterogenität
(Keine einheitliche Zugriffsschnittstelle auf die Datenbestände z.B. SQL vs REST)

22
Q

Was gehört zur Modellierungsheterogenität?

A

Datenmodellheterogenität: Es kommen unterschiedliche Datenmodelle vor, z B
relational vs graphorientiert

Strukturheterogenität: Die Struktur der Datenschemata ist unterschiedlich, d h die vorkommenden Entitätstypen, Attribute und Beziehungen weichen voneinander ab

Semantische Heterogenität: Die Schema und Datenelemente der Datenbasis werden auf unterschiedliche Weise interpretiert Beispielsweise kann der Begriff „Umsatz” unterschiedlich interpretiert werden (zugrundeliegender Zeitraum, berücksichtigte
Zahlungsströme, angegebene Währung etc

23
Q

Was ist die Schemaintegration?

A

Die Schemaintegration umfasst alle notwendigen Schritte, um heterogene Datenschemata
verschiedener Datenquellen derart aufeinander abzubilden, dass Zusammenhänge zwischen den
einzelnen Schemaelementen gefunden werden und die betreffenden Elemente dementsprechend
aufeinander abgebildet werden können.

Ziel der Schemaintegration ist es, eine Menge von
Übereinstimmungen zwischen den beteiligten Schemata zu ermitteln und anzugeben, sodass die
jeweiligen Datenbestände anschließend passend zusammengeführt integriert werden können

24
Q

Was muss sichergestellt werden bevor mit der Integration mehrerer Schemata begonnen werden kann?

A

Dass zu jeder zu berücksichtigenden Datenquelle überhaupt ein Datenschema bekannt ist.

Während dies bei relationalen Datenbanken und zumeist auch bei Graphdatenbanken implizit
sichergestellt ist, verfügen semi strukturierte Datenspeicher wie beispielsweise Dokumentendatenbanken meist nicht über ein explizit spezifiziertes Datenschema

25
Q

Welche Fragen stellen sich bei nichtrelationalen Datenquellen z.B. JSON vor der Schemaintegration?

A

Welche Struktur weisen die Daten in diesen JSON Dateien auf?

Kann analog zum relationalen oder graphbasierten Datenmodell ein Datenschema für diese
Datenstruktur angegeben werden?

Gibt es eine Data Definition Language (DDL) wie bei SQL, um das Datenschema explizit anzugeben, um damit die strukturelle Integrität der Daten überprüfen zu können?

26
Q

Was ist JSON Schema?

A

Damit kann die strukturelle Integrität von JSON Dokumenten überprüft werden

Spezifikation des Datenschemas erfolgt dabei wieder selbst im JSON Format

27
Q

Wann erfolgt Schema Mapping und was ist es?

A

Sobald zu jeder Datenquelle ein Datenschema vorliegt müssen die vorhandenen Datenschemata aufeinander abgebildet werden.

Zu jedem Schemaelement das in beiden Schemata vorhanden ist muss die jeweilige Entsprechung gefunden werden.

28
Q

Welche Verfahren gibt es um Matches in 2 Schemata zu finden?

A

Beschriftungsbasiertes Matching (label based matching) Hier werden Schemaelemente mit ähnlichen Bezeichnungen (z B Attribute mit gleichen oder ähnlichen Namen) einander zugeordnet

Strukturbasiertes Matching (structure based matching) Hier werden Schemaelemente mit ähnlicher Struktur (z B ähnlicher Anzahl und Art der Attribute von Entitätstypen) einander zugeordnet

Instanzbasiertes Matching (instance based matching) Hier werden Schemaelemente einander zugeordnet, die ähnliche Instanzen aufweisen (z B Entitäten mit ähnlichen Attributwerten und Beziehungen)

29
Q

Was passiert nach dem Schema Mapping?

A

Es werden zwar Übereinstimmungen in den Datenstrukturen gefunden es entsteht jedoch noch kein universelles Datenschema

Folgende Fragen sind nun noch offen:
Wie kann ein einheitliches Datenschema für das gesamte Unternehmen erstellt werden?

Wie kann die Bedeutung der einzelnen Elemente dieses Datenschemas eindeutig spezifiziert werden?

Wie können die Schemata der einzelnen Datenquellen auf dieses Datenschema abgebildet werden?

30
Q

Was ist eine Ontologie?

A

Ein abstraktes Modell eines Gegenstandsbereichs, das zur eindeutigen Kommunikation innerhalb einer bestimmten Anwendergruppe genutzt wird.

Zu dieser Anwendergruppe zählen in einem betrieblichen Informationssystem sowohl die maschinellen Anwendungssysteme als auch die (menschlichen) Endanwender, die mit diesen Systemen arbeiten.

Daher muss eine Ontologie die zur Beschreibung des Modells verwendeten Begriffe so festlegen, dass sie sowohl für Menschen als auch für Maschinen eindeutig definiert sind Beispielsweise muss für das Wort „Umsatz” geregelt sein, welche betrieblichen Zahlungsströme zum Umsatz eines bestimmten Produkts zählen und in welcher Einheit (Euro oder US Dollar, nominal oder diskontiert, etc sowie über welchen Zeitraum dieser angegeben werden soll.

Gerade bei internationalen Unternehmen, die ihre Umsätze in regionalen DBMS verwalten, sind solche Festlegungen zentral, damit die unternehmensweiten Datenanalysen nicht auf unstimmig verrechnete Zahlen basieren.

31
Q

Aus was bestehen Ontologien auf abstrakter Ebene?

A

Die Klassen beschreiben die Objekte, Gegenstände oder Konzepte (Entitätstypen) die zum Gegenstandsbereich der Ontologie zählen. Im Falle der Mitarbeitendenverwaltung einer Bank wären dies z B die Mitarbeitenden, die Abteilungen und Berufe, die Teams usw. Zu den Klassen zählen allerdings auch die Datentypen der Attributwerte (z B String Integer etc da auch diese für die formale Beschreibung des Datenmodells benötigt werden.

Die Eigenschaften beschreiben die Beziehungen zwischen zwei Instanzen der Klassen Bei den
Beziehungstypen handelt es sich um Beziehungen zwischen zwei Entitätstypen, während es sich
bei Attributen um Beziehungen zwischen einer Entität und einem Datentyp (nämlich dem der entsprechenden Attributwerte) handelt

32
Q

Welche Schritte sind notwendig um mithilfe von Ontologien ein einheitliches Datenschema für den gesamten Gegenstandsbereich erstellen zu können?

A
  1. Erstellen der Ontologie anhand des Wissens über die zu modellierenden Informationen.
  2. Mapping der zu integrierenden Datenschemata auf die passenden Elemente der Ontologien.

Sobald beide Schritte durchgeführt wurden, ist ein einheitliches semantisches Datenmodell entstanden, welches unabhängig von den Architekturen der einzelnen Datenquellen die Struktur des gesamten Datenbestands eindeutig modelliert. Dies wird als semantische Informationsintegration bezeichnet und ist im Falle heterogener Datenquellen Voraussetzung für die Datenintegration.

33
Q

Wie erfolgt die Erstellung der Ontologie?

A

Durch Festlegung der durch sie beschriebenen Klassen und Eigenschaften anhand des Wissens über ihren Anwendungsbereich.

Entitätstypen, Datentypen, Beziehungstypen, Attribute

34
Q

Wie kann eine Ontologie maschinenlesbar und damit formal eindeutig repräsentiert werden?

A

Mithilfe von RDF Schema (RDFS)

Der RDFS Standard kann selbst als eine Ontologie zur eindeutigen Beschreibung von Ontologien aufgefasst werden und besteht dementsprechend genau wie jede Ontologie aus einer Menge von Klassen und
Eigenschaften. Damit diese weltweit eindeutig definiert sind und dementsprechend von jedem Anwendungssystem der Welt, welches das RDF nutzt, verstanden werden können, wurden vom
World Wide Web Consortium Präfixe für das RDFS Vokabular festgelegt.

35
Q

Wie erfolgt das Mapping der Datenschemata auf die Ontologie?

A

Durch Listung der Klassen und Eigenschaften die zu den jeweiligen Elementen der Ontologie passen.

Hierzu sind nur zwei Arten von Angaben erforderlich

  1. Die Angabe der Entitätstypen (und ggf Datentypen) aus den Datenquellen, die Ausprägungen der Klassen der Ontologien sind
  2. Die Angabe der Beziehungstypen und Attribute die Ausprägungen der Eigenschaften der Ontologien sind
36
Q

Welche Schritte gehören zur Schemaintegration?

A

Schemagenerierung (Nachträgliche Generierung eines Schemas zu vorhandenen Daten)

Schema Mapping (Zusammenführen mehrerer untersch. Schemata)

Semantische Integration (Erstellung eines globalen Schemas mit einheitlicher Semantik)

37
Q

Wie ist das Umsetzen der Schemaintegration in der Praxis?

A

Häufig sehr schwierig.

Die Datenquellen weisen ein hohes Maß an Autonomie und damit Heterogenität auf. Daher ist es häufig schwierig, die Daten der Datenquellen überhaupt anzuzapfen und sie dann in andere Schemata, denen oft andere Datenmodelle zugrunde liegen, zu überführen

Für die Erstellung des globalen Schemas (z B in Form einer Ontologie) sind sowohl gute Kenntnisse über den Anwendungsbereich als auch über die Datenquellen erforderlich. Gerade in großen Unternehmen ist es nicht einfach, einen möglichst kleinen Personenkreis zu
identifizieren, der in der Lage ist, eine geeignete, möglichst vollumfängliche Ontologie zu erstellen

Es gibt bislang nur wenige Systeme die die Semantik von Ontologien und alle zur Durchführung der Informationsintegration benötigten Schritte vollständig implementieren. Die Entwicklung der meisten Softwarelösungen, die Standards wie das RDFS implementieren, ist nach wie vor Gegenstand aktiver Forschung