Semantische Integration Flashcards
Wozu dienen syntaktische Standards?
syntaktischen Standards ermöglichen zwar die einheitliche Abbildung und Strukturierung von Informationen im Web, wodurch die automatische Verarbeitung sowohl von lokal vorliegender Information als auch aus entfernten Quellen stammender Information erheblich erleichtert wird.
Syntaktische Homogenität ist eine notwendige, aber nicht hinreichende Bedingung für die … .
gemeinsame Informationsnutzung
Abstrakt betrachtet können die oben beschriebenen Heterogenitätskonflikte folgen-den Ebenen zugeordnet werden:
- Datenmodellebene
- Datenschemaebene
- Dateninstanzebene
Heterogenitätskonflikte zwischen Datenmodellen:
Datenquellen können sich deutlich in der Darstellung von Daten unterscheiden
Syntaktische Ebene wird angesprochen
Das Abgleichen heterogener Datenquellen macht ein gemeinsames Daten-Modell erforderlich.
Es müssen geeignete Transformationen gefunden werden
Heterogenitätskonflikte zwischen Datenschemata
Auf der strukturellen Ebene stellt sich das Abgleichen unterschiedlicher schematischer Repräsentationen ein und desselben Objekts oder Merkmals als problematisch dar.
Unterscheidung der Heterogenitätskonflikte zwischen Datenschemata
- bilaterale Konflikte
- multilaterale Konflikte
- metalevel Konflikte
Bilaterale Konflikte:
Bilaterale Konflikte betreffen in der Regel genau ein Objekt. Dieses eine Objekt wird in unterschiedlichen Informationsquellen durch unterschiedliche, beschreibende Strukturen abgelegt.
Arten von bilateralen Konflikten:
- Namenskonflikte (Bezeichnerkonflikte)
- Datentypkonflikte
- Integritätskonflikte
Namenskonflike:
Namenskonflikte treten in allen Fällen auf, in denen Quellen unterschiedliche Namen für dasselbe Objekt der realen Welt (real world object) verwenden. Ein typischer Fall ist die Verwendung unterschiedlicher Namen für das gleiche Attribut in relationalen Datenbanken (Synonyme). Ebenso können Homonyme, also syntaktisch gleiche Bezeichner, aber semantisch unterschiedliche Relationen, zu Namenskonflikten führen.
Datentypkonflikte:
Als Datentypkonflikt bezeichnet man den Fall, dass verschiedene Datentypen für denselben Wert verwendet werden, z. B. der Preis für eine Unterkunft einmal im integer-, in einer anderen Datenquelle jedoch im real- oder string-Format angegeben wird.
Integritätskonflikt:
Die Verwendung unter-schiedlicher Identifikatoren für dasselbe Objekt erschwert es, Information über das Objekt aus verschiedenen Quellen zusammenzufassen und führt zum Integritätskonflikt.
Multilaterale Konflikte:
Multilaterale Konflikte sind Konflikte, die mehr als ein Objekt einer Repräsentation berühren. Sie treten auf, wenn eine Information, welche in einer Quelle durch ein einzelnes Objekt repräsentiert wird, in einer anderen Quelle auf mehrere Objekte verteilt ist.
Arten Multilateraler Konflikte
- multilateral attribute correspondences
- multilateral entity correspondances
- missing values
multilateral attribute correspondences:
Als multilateral attribute correspondances werden Konflikte bezeichnet, die durch Verteilung von Informationen auf mehrere Eigenschaften (Prädikate) auftreten.
In anderen Quellen könnte dieselbe Information durch die zwei Eigenschaften city und country beschrieben werden.
multilateral entity correspondances
Als multilateral entity correspondances bezeichnet man Konflikte, die entstehen, wenn einzelne oder mehrere Ressourcen verwendet werden, um eine bestimmte Information darzustellen.
missing values:
Als missing values werden Konflikte bezeichnet, die entstehen, wenn bestimmte Teile einer Information, die in einer Informationsquelle enthalten sind, in einer anderen Informationsquelle fehlen.
Meta-Level-Konflikte:
Diese Konflikte sind bedingt durch die Verwendung unterschiedlicher Modellierungselemente zur Repräsentation von Information derselben Art. In konzeptionellen Datenmodellen sind diese Grundelemente Dateneinheiten (entities), Attribute und Daten, in RDF-Ressourcen sind es Ressourcen, Eigenschaften und Datentypen/Literale. Die Vermischung dieser Modellierungselemente bei der Repräsentation kann zu Konflikten führen.
Heterogenitätskonflikte zwischen Dateninstanzen
Es kann hier zwischen zwei Konflikttypen unterschieden werden. Datenkonflikte gehen aus unterschiedlicher Codierung hervor und Domänenkonflikte erwachsen aus der unterschiedlichen Konzeptionierung des jeweiligen Wissensbereiches
Was bezeichnet man als different scales?
Im Einzelnen spricht man von unterschiedlichen Skalen (different scales), wenn ins-besondere numerische Werte auf verschiedenen Maßstäben basieren. (Datenkonflikte)
Was bezeichnet man als different value ranges?
Besitzt man keine Kenntnis über die zugrunde liegende Skala, ist auch kein Vergleich der Merkmale bzw. deren Abstraktion als Werte möglich. (Datenkonflikte)
Was bezeichnet man als surjective mapping?
Wenn ein Wert einer Quelle auf mehrere Werte der anderen Quelle abgebildet wird, spricht man von dem Konflikttypen des surjective mappings. (Datenkonflikte)