Semantische Integration Flashcards
Wozu dienen syntaktische Standards?
syntaktischen Standards ermöglichen zwar die einheitliche Abbildung und Strukturierung von Informationen im Web, wodurch die automatische Verarbeitung sowohl von lokal vorliegender Information als auch aus entfernten Quellen stammender Information erheblich erleichtert wird.
Syntaktische Homogenität ist eine notwendige, aber nicht hinreichende Bedingung für die … .
gemeinsame Informationsnutzung
Abstrakt betrachtet können die oben beschriebenen Heterogenitätskonflikte folgen-den Ebenen zugeordnet werden:
- Datenmodellebene
- Datenschemaebene
- Dateninstanzebene
Heterogenitätskonflikte zwischen Datenmodellen:
Datenquellen können sich deutlich in der Darstellung von Daten unterscheiden
Syntaktische Ebene wird angesprochen
Das Abgleichen heterogener Datenquellen macht ein gemeinsames Daten-Modell erforderlich.
Es müssen geeignete Transformationen gefunden werden
Heterogenitätskonflikte zwischen Datenschemata
Auf der strukturellen Ebene stellt sich das Abgleichen unterschiedlicher schematischer Repräsentationen ein und desselben Objekts oder Merkmals als problematisch dar.
Unterscheidung der Heterogenitätskonflikte zwischen Datenschemata
- bilaterale Konflikte
- multilaterale Konflikte
- metalevel Konflikte
Bilaterale Konflikte:
Bilaterale Konflikte betreffen in der Regel genau ein Objekt. Dieses eine Objekt wird in unterschiedlichen Informationsquellen durch unterschiedliche, beschreibende Strukturen abgelegt.
Arten von bilateralen Konflikten:
- Namenskonflikte (Bezeichnerkonflikte)
- Datentypkonflikte
- Integritätskonflikte
Namenskonflike:
Namenskonflikte treten in allen Fällen auf, in denen Quellen unterschiedliche Namen für dasselbe Objekt der realen Welt (real world object) verwenden. Ein typischer Fall ist die Verwendung unterschiedlicher Namen für das gleiche Attribut in relationalen Datenbanken (Synonyme). Ebenso können Homonyme, also syntaktisch gleiche Bezeichner, aber semantisch unterschiedliche Relationen, zu Namenskonflikten führen.
Datentypkonflikte:
Als Datentypkonflikt bezeichnet man den Fall, dass verschiedene Datentypen für denselben Wert verwendet werden, z. B. der Preis für eine Unterkunft einmal im integer-, in einer anderen Datenquelle jedoch im real- oder string-Format angegeben wird.
Integritätskonflikt:
Die Verwendung unter-schiedlicher Identifikatoren für dasselbe Objekt erschwert es, Information über das Objekt aus verschiedenen Quellen zusammenzufassen und führt zum Integritätskonflikt.
Multilaterale Konflikte:
Multilaterale Konflikte sind Konflikte, die mehr als ein Objekt einer Repräsentation berühren. Sie treten auf, wenn eine Information, welche in einer Quelle durch ein einzelnes Objekt repräsentiert wird, in einer anderen Quelle auf mehrere Objekte verteilt ist.
Arten Multilateraler Konflikte
- multilateral attribute correspondences
- multilateral entity correspondances
- missing values
multilateral attribute correspondences:
Als multilateral attribute correspondances werden Konflikte bezeichnet, die durch Verteilung von Informationen auf mehrere Eigenschaften (Prädikate) auftreten.
In anderen Quellen könnte dieselbe Information durch die zwei Eigenschaften city und country beschrieben werden.
multilateral entity correspondances
Als multilateral entity correspondances bezeichnet man Konflikte, die entstehen, wenn einzelne oder mehrere Ressourcen verwendet werden, um eine bestimmte Information darzustellen.
missing values:
Als missing values werden Konflikte bezeichnet, die entstehen, wenn bestimmte Teile einer Information, die in einer Informationsquelle enthalten sind, in einer anderen Informationsquelle fehlen.
Meta-Level-Konflikte:
Diese Konflikte sind bedingt durch die Verwendung unterschiedlicher Modellierungselemente zur Repräsentation von Information derselben Art. In konzeptionellen Datenmodellen sind diese Grundelemente Dateneinheiten (entities), Attribute und Daten, in RDF-Ressourcen sind es Ressourcen, Eigenschaften und Datentypen/Literale. Die Vermischung dieser Modellierungselemente bei der Repräsentation kann zu Konflikten führen.
Heterogenitätskonflikte zwischen Dateninstanzen
Es kann hier zwischen zwei Konflikttypen unterschieden werden. Datenkonflikte gehen aus unterschiedlicher Codierung hervor und Domänenkonflikte erwachsen aus der unterschiedlichen Konzeptionierung des jeweiligen Wissensbereiches
Was bezeichnet man als different scales?
Im Einzelnen spricht man von unterschiedlichen Skalen (different scales), wenn ins-besondere numerische Werte auf verschiedenen Maßstäben basieren. (Datenkonflikte)
Was bezeichnet man als different value ranges?
Besitzt man keine Kenntnis über die zugrunde liegende Skala, ist auch kein Vergleich der Merkmale bzw. deren Abstraktion als Werte möglich. (Datenkonflikte)
Was bezeichnet man als surjective mapping?
Wenn ein Wert einer Quelle auf mehrere Werte der anderen Quelle abgebildet wird, spricht man von dem Konflikttypen des surjective mappings. (Datenkonflikte)
Was bezeichnet man als schema mapping?
Beim Vergleich voneinander unabhängiger Dokumente müssen Elemente, die entweder in Beziehung zueinander stehen oder dasselbe beschreiben, schon während der Integration bestimmt werden. Dieser Konfliktfall wird als schema mapping oder schema matching bezeichnet. (Datenkonflikte)
Domänenkonflikte:
Domänenkonflikte treten auf, wenn sich verschiedene Konzeptualisierungen bestimmter Wissensbereiche der realen Welt widersprechen und somit ein Vergleich unmöglich wird.
Vier Typen von Domänenkonflikten:
Zum einen ist hier der Fall der Subsumption zu nennen. Dieser liegt vor, wenn eine Klasse von Objekten alle Objekte, die in einer anderen Klasse enthalten sind, einbezieht.
Der zweite Konflikttyp stellt den etwas komplexeren Fall der Überlappung vor. Wenn sich zwei Klassen teilweise überlappen (overlap)
wenn dies gerade nicht der Fall ist, d. h. Klassen per definitionem disjunkt sind. Ein Beispiel für diesen dritten Konflikttyp (inconsistency)
Ein weiterer möglicher Konflikt auf Ebene der Domäne (domain-level) ist bedingt durch die unterschiedlichen Abstraktionsebenen, die dazu führen können, dass Daten in verbundener Form auftreten (aggregation)