Grundlagen der Informationsintegration Flashcards

Question

Welche Fragen stellen sich bei nichtrelationalen Datenquellen z.B. JSON vor der Schemaintegration?

Answer 1

Welche Struktur weisen die Daten in diesen JSON Dateien auf? Kann analog zum relationalen oder graphbasierten Datenmodell ein Datenschema für diese Datenstruktur angegeben werden? Gibt es eine Data Definition Language (DDL) wie bei SQL, um das Datenschema explizit anzugeben, um damit die strukturelle Integrität der Daten überprüfen zu können?

Answer 2

Damit kann die strukturelle Integrität von JSON Dokumenten überprüft werden Spezifikation des Datenschemas erfolgt dabei wieder selbst im JSON Format

Answer 3

Sobald zu jeder Datenquelle ein Datenschema vorliegt müssen die vorhandenen Datenschemata aufeinander abgebildet werden. Zu jedem Schemaelement das in beiden Schemata vorhanden ist muss die jeweilige Entsprechung gefunden werden.

Answer 4

Beschriftungsbasiertes Matching (label based matching) Hier werden Schemaelemente mit ähnlichen Bezeichnungen (z B Attribute mit gleichen oder ähnlichen Namen) einander zugeordnet Strukturbasiertes Matching (structure based matching) Hier werden Schemaelemente mit ähnlicher Struktur (z B ähnlicher Anzahl und Art der Attribute von Entitätstypen) einander zugeordnet Instanzbasiertes Matching (instance based matching) Hier werden Schemaelemente einander zugeordnet, die ähnliche Instanzen aufweisen (z B Entitäten mit ähnlichen Attributwerten und Beziehungen)

Answer 5

Es werden zwar Übereinstimmungen in den Datenstrukturen gefunden es entsteht jedoch noch kein universelles Datenschema Folgende Fragen sind nun noch offen: Wie kann ein einheitliches Datenschema für das gesamte Unternehmen erstellt werden? Wie kann die Bedeutung der einzelnen Elemente dieses Datenschemas eindeutig spezifiziert werden? Wie können die Schemata der einzelnen Datenquellen auf dieses Datenschema abgebildet werden?

Answer 6

Ein abstraktes Modell eines Gegenstandsbereichs, das zur eindeutigen Kommunikation innerhalb einer bestimmten Anwendergruppe genutzt wird. Zu dieser Anwendergruppe zählen in einem betrieblichen Informationssystem sowohl die maschinellen Anwendungssysteme als auch die (menschlichen) Endanwender, die mit diesen Systemen arbeiten. Daher muss eine Ontologie die zur Beschreibung des Modells verwendeten Begriffe so festlegen, dass sie sowohl für Menschen als auch für Maschinen eindeutig definiert sind Beispielsweise muss für das Wort „Umsatz" geregelt sein, welche betrieblichen Zahlungsströme zum Umsatz eines bestimmten Produkts zählen und in welcher Einheit (Euro oder US Dollar, nominal oder diskontiert, etc sowie über welchen Zeitraum dieser angegeben werden soll. Gerade bei internationalen Unternehmen, die ihre Umsätze in regionalen DBMS verwalten, sind solche Festlegungen zentral, damit die unternehmensweiten Datenanalysen nicht auf unstimmig verrechnete Zahlen basieren.

Answer 7

Die Klassen beschreiben die Objekte, Gegenstände oder Konzepte (Entitätstypen) die zum Gegenstandsbereich der Ontologie zählen. Im Falle der Mitarbeitendenverwaltung einer Bank wären dies z B die Mitarbeitenden, die Abteilungen und Berufe, die Teams usw. Zu den Klassen zählen allerdings auch die Datentypen der Attributwerte (z B String Integer etc da auch diese für die formale Beschreibung des Datenmodells benötigt werden. Die Eigenschaften beschreiben die Beziehungen zwischen zwei Instanzen der Klassen Bei den Beziehungstypen handelt es sich um Beziehungen zwischen zwei Entitätstypen, während es sich bei Attributen um Beziehungen zwischen einer Entität und einem Datentyp (nämlich dem der entsprechenden Attributwerte) handelt

Answer 8

1. Erstellen der Ontologie anhand des Wissens über die zu modellierenden Informationen. 2. Mapping der zu integrierenden Datenschemata auf die passenden Elemente der Ontologien. Sobald beide Schritte durchgeführt wurden, ist ein einheitliches semantisches Datenmodell entstanden, welches unabhängig von den Architekturen der einzelnen Datenquellen die Struktur des gesamten Datenbestands eindeutig modelliert. Dies wird als semantische Informationsintegration bezeichnet und ist im Falle heterogener Datenquellen Voraussetzung für die Datenintegration.

Answer 9

Durch Festlegung der durch sie beschriebenen Klassen und Eigenschaften anhand des Wissens über ihren Anwendungsbereich. Entitätstypen, Datentypen, Beziehungstypen, Attribute

Answer 10

Mithilfe von RDF Schema (RDFS) Der RDFS Standard kann selbst als eine Ontologie zur eindeutigen Beschreibung von Ontologien aufgefasst werden und besteht dementsprechend genau wie jede Ontologie aus einer Menge von Klassen und Eigenschaften. Damit diese weltweit eindeutig definiert sind und dementsprechend von jedem Anwendungssystem der Welt, welches das RDF nutzt, verstanden werden können, wurden vom World Wide Web Consortium Präfixe für das RDFS Vokabular festgelegt.

Answer 11

Durch Listung der Klassen und Eigenschaften die zu den jeweiligen Elementen der Ontologie passen. Hierzu sind nur zwei Arten von Angaben erforderlich 1. Die Angabe der Entitätstypen (und ggf Datentypen) aus den Datenquellen, die Ausprägungen der Klassen der Ontologien sind 2. Die Angabe der Beziehungstypen und Attribute die Ausprägungen der Eigenschaften der Ontologien sind

Answer 12

Schemagenerierung (Nachträgliche Generierung eines Schemas zu vorhandenen Daten) Schema Mapping (Zusammenführen mehrerer untersch. Schemata) Semantische Integration (Erstellung eines globalen Schemas mit einheitlicher Semantik)

Answer 13

Häufig sehr schwierig. Die Datenquellen weisen ein hohes Maß an Autonomie und damit Heterogenität auf. Daher ist es häufig schwierig, die Daten der Datenquellen überhaupt anzuzapfen und sie dann in andere Schemata, denen oft andere Datenmodelle zugrunde liegen, zu überführen Für die Erstellung des globalen Schemas (z B in Form einer Ontologie) sind sowohl gute Kenntnisse über den Anwendungsbereich als auch über die Datenquellen erforderlich. Gerade in großen Unternehmen ist es nicht einfach, einen möglichst kleinen Personenkreis zu identifizieren, der in der Lage ist, eine geeignete, möglichst vollumfängliche Ontologie zu erstellen Es gibt bislang nur wenige Systeme die die Semantik von Ontologien und alle zur Durchführung der Informationsintegration benötigten Schritte vollständig implementieren. Die Entwicklung der meisten Softwarelösungen, die Standards wie das RDFS implementieren, ist nach wie vor Gegenstand aktiver Forschung