Datenmanagement in verteilten Umgebungen Flashcards

Question

Was sind die Unterschiede zwischen ACID & BASE bei Zugriffschnittstelle?

Answer 1

ACID: meist SQL BASE: häufig REST basierte Schnittstelle

Answer 2

ACID: Primärschlüsselattribute BASE: globale Identifikatoren z.B. URI

Answer 3

ACID: Indexe auf beliebigen Attributen BASE: Indexe nur auf Schlüsselattributen

Answer 4

Für NoSQL Datenbanken

Answer 5

Horizontale Skalierbarkeit Schwache oder keine Schemarestriktionen Ausfallsicherheit durch Datenreplikation Herstellerabhängige Zugriffsschnittstellen BASE Konsistenzmodell

Answer 6

Im späten 20 Jahrhundert, als das Web noch unbekannt war oder nur statische HTML Dokumente umfasste, waren relationale DBMS lange Zeit uneingeschränkter Marktführer im Bereich des digitalen Datenmanagements. Durch das Aufkommen moderner Webtechnologien und der zunehmenden Popularität von REST basierten Systemen stießen diese jedoch zunehmend an ihre Grenzen, wenn es darum ging, tausende oder gar Millionen von Anfragen zu verarbeiten oder einen Datenbestand im Bereich der Petabytes 1 Petabyte entspricht 1 024 Terabyte oder 1 048 576 Gigabyte) zu verwalten. Diese Entwicklungen führten zum Aufkommen eines neuen, von zentralistischen SQL basierten DBMS verschiedenen Ansatz zur Datenverwaltung, der heutzutage in der Literatur als NoSQL bezeichnet wird

Answer 7

Key Value Stores Wide Column Stores Dokumentendatenbanken Graphdatenbanken

Answer 8

Der einfachste Ansatz zur strukturierten Speicherung von Daten besteht in der Zuordnung der einzelnen Datensätze zu einem entsprechenden Schlüsselwert Ein einzelner Datensatz wird dabei als „ Wert“ (Value) zu einem Schlüssel (Key) aufgefasst, wobei der Schlüssel vergleichbar mit dem ID Schlüssel im Relationenmodell ist. Sowohl der Schlüssel als auch der Datensatz können intern auch komplexere Strukturen aufweisen, deren Handhabung dann jedoch durch das Anwendungssystem erfolgen muss, das auf die Datenbank zugreift. Key Value Stores sind die schnellsten und effizientesten Datenspeicher hinsichtlich ihrer Kapazität und Zugriffsgeschwindigkeit, allerdings bieten sie keinerlei Mechanismen für die Definition von Datenschemata oder die Formulierung komplexer Abfragen (z B Verbünde, Aggregatfunktionen) an, sodass diese Funktionalität falls nötig direkt in den jeweiligen Anwendungssystemen implementiert werden muss

Answer 9

Die Datenstruktur der Wide Column Stores ist inspiriert durch tabellarische Datenverwaltung, wie sie beispielsweise in Tabellenkalkulationsprogrammen (z B Microsoft Excel) vorkommt. Konkret besteht der Unterschied zu den Key Value Stores darin, dass zu einem Schlüssel beliebig viele Datensätze erfasst werden können. Diese werden häufig intern noch einmal nach bestimmten Kriterien angeordnet, verkettet oder gruppiert Somit stellen die Wide Column Stores in gewisser Weise ein hybrides Modell zwischen einfachen Key Value Stores und relationalen Datenbanken dar

Answer 10

Graphdatenbanken mehr Funktionalität aber skalieren schlechter

Answer 11

Dokumentendatenbanken (document stores) speichern Daten in Form von strukturierten Datensammlungen ..„ bedeutet in diesem Zusammenhang, dass die Daten zwar serialisiert als lesbarer Text vorliegen, dieser Text jedoch einer bestimmten Syntax genügen muss. Dabei kann es sich z B um das im folgenden Abschnitt behandelte JSON Format (JavaScript Object Notation) oder auch um eine Serialisierung der in Kapitel 5 betrachteten RDF Dateien handeln. Gegenüber einfachen Key Value Stores haben Dokumentendatenbanken den Vorteil, dass ihr DBMS die Struktur der zu speichernden Daten zumindest auf syntaktischer Ebene überprüfen kann und dass einige der verwendeten Formate (z B XML, JSON, RDF) auch die Definition eines Schemas zulassen, wobei entsprechende Konsistenzprüfungen allerdings durch das auf die Daten zugreifende Anwendungssystem erfolgen müssen. Aufgrund der Organisation der Daten in Form von strukturierten Dokumenten können Sie außerdem komplexere Anfragen auswerten und eignen sich besonders für die Speicherung von großen oder komplexen Aggregaten

Answer 12

Die bereits aus Kapitel 5 bekannten Graphdatenbanken stellen ebenso einen Vertreter der NoSQL Datenbanken dar. Sie unterscheiden sich allerdings insofern von den anderen oben gelisteten Ansätzen, als dass sie eine umfangreiche Strukturierung der Daten entsprechend dem in Kapitel 5 behandelten Graphenmodell zulassen, welches sich besonders zur Modellierung von Beziehungen zwischen verschiedenen Entitäten eignet. Dadurch können sie deutlich komplexere Anfragen effizient auswerten und unterstützen häufig sogar logische Inferenz (d h logische Schlussfolgerungen) auf der Datenbasis Insbesondere, wenn die Graphdatenbank das in Kapitel 5 behandelte Konzept des Property Graphen unterstützt, sind auch Schemadefinitionen und Überprüfung von (strukturellen und referenziellen) Konsistenzbedingungen möglich

Answer 13

Heißt dass pro Schlüsselwert eine Datengruppe (Aggregat) gespeichert wird, die aus vielen zusammengehörigen Datensätzen bestehen kann.

Answer 14

Key Value Sotres: Struktur des Aggregats wird vollständig durch Anwendungssystem verwaltet Wide Column Stores: Pro Datensatz steht eine Spalte zur Verfügung Dokumentendatenbanken: Struktur des Aggregats wird in Dokumentenstruktur abgebildet Graphdatenbanken/rel. DB: keine Aggregatorientierung

Answer 15

Sinnvolle Bildung von Aggregaten aus den gegebenen Datensätzen ist möglich Die verschiedenen Aggregate weisen ggf. eine unterschiedliche interne Struktur auf. Es kann ein eindeutiger Schlüsselwert pro Aggregat gefunden werden Wenn ein Aggregat abgefragt werden soll ist sein Schlüsselwert bekannt Es müssen möglichst keine Verbünde zwischen den Aggregaten gebildet werden.

Answer 16

Sind dementsprechend Datenmanagementsysteme, die nur einzelne Datensätze pro Schlüsselwert speichern. In diese Gruppe zählen neben den Graphdatenbanken auch die traditionellen relationalen Datenbanken

Answer 17

Das Map/Reduce Verfahren

Answer 18

Das Map/Reduce Verfahren besteht aus zwei nacheinander ablaufenden Phasen In der Map Phase werden zu einer Menge von Schlüsselwerten relevante Datensätze identifiziert und zusammengetragen. Dieser Vorgang kann parallel auf verschiedenen Knoten ausgeführt werden. Die Ergebnisse in Form von Schlüsselwerten und den zugehörigen Datensätzen werden anschließend für die weitere Verarbeitung zwischengespeichert. Die Reduce Phase beginnt, sobald die Map Phase auf allen beteiligten Knoten abgeschlossen ist und alle Zwischenergebnisse vorliegen. In der Reduce Phase werden pro Schlüsselwert alle Datensätze zu einem (aggregierten) Datensatz zusammengefasst, sodass am Ende pro Schlüsselwert ein Ergebnis Datensatz vorliegt. Auch diese Phase kann parallel auf verschiedenen Knoten ausgeführt werden

Answer 19

Die Speicherung beliebiger Datensätze in Form von eindeutig identifizierbaren Dokumenten mit fester syntaktischer Struktur

Answer 20

Aggregatorientierung: Zu jedem Schlüsselwert wird ein Dokument gespeichert. Länge Inhalt und Struktur des Dokument variieren beliebig. Schemalosigkeit: Kein Mechanismus zur Definition eines Datenschemas. Struktur der Dokumente wird nur auf Syntaxebene vorgegeben. Fehlende semantische Konsistenzprüfung: Mangels Schema kann keine Prüfung der Datenintegrität erfolgen. Geprüft wird lediglich die syntaktische Korrektheit der Dokumente. Replikationsmechanismen: Gesamte Datenbasis oder Teile können repliziert werden. Replizierte Datenbestände werden fortlaufend synchronisiert.

Answer 21

Java Script Object Notation ist ein im Web Kontext beliebtes Format zur syntaktischen Strukturierung von Dokumenten. Enthält entweder eins der Elemente: Atomarer Wert Array Objekt Durch Arrays und Objekte lassen sich JSON Dateien beliebig tief verschachteln

Answer 22

weist XML allerdings den Nachteil auf, dass seine Struktur relativ komplex ist, was zum einen die Lesbarkeit für menschliche AnwenderInnen erschwert und zum anderen dazu führt, dass die Dateigröße von XML Dateien stark wächst, wenn die Daten eine komplexe Struktur aufweisen

Answer 23

Atomarer Wert: Ein atomarer Wert ist eine einzelne Zeichenkette, eine einzelne Zahl oder ein boolescher Wert d h true oder false. Außerdem ist der Nullwert null als atomarer Wert zulässig. Zur Unterscheidung dieser Typen werden Zeichenketten stets in doppelten Anführungszeichen angegeben, alle anderen Werte hingegen nicht. Array: Ein Array ist eine Liste von Elementen Arrays werden von eckigen Klammern umgeben und die einzelnen Elemente werden mit einem Komma getrennt Objekt: Ein Objekt ist eine Menge von Schlüssel Wert Paaren Objekte werden von geschweiften Klammern umgeben und die einzelnen Schlüssel Wert Paare werden mit einem Komma getrennt. Jedes der Schlüssel Wert Paare enthält einen Schlüssel in Form einer (mit Anführungszeichen umgebenen) Zeichenkette, gefolgt von einem Doppelpunkt und einem Element, welches den Wert des Schlüssel Wert Paares repräsentiert

Answer 24

Eine Dokumentdatenbank die Dokumente im JSON Format speichert und eine HTTP basierte REST Schnittstelle für den Datenzugriff verwendet.

Answer 25

HTTP Befehl: PUT / products HTTP Header: keine HTTP Body: leer

Answer 26

HTTP Befehl: PUT / products /ZahlXY HTTP Header: keine HTTP Body: zu erstellendes JSON Dokument

Answer 27

HTTP Befehl: GET / products / ZahlXY HTTP Header: keine HTTP Body: leer

Answer 28

HTTP Befehl: PUT / products / ZahlXY HTTP Header: If match: RevisionID HTTP Body: verändertes JSON Dokument

Answer 29

HTTP Befehl: Delete / products / Zahl XY HTTP Header: If match: Revision ID HTTP Body: leer

Answer 30

Über das Map/Reduce Verfahren Die während der Map Phase auszuführenden Operationen werden durch die Implementierung einer Map Funktion angegeben Dabei handelt es sich um eine sehr einfache Funktion, die in JavaScript Programmcode geschrieben wird. Dies bietet sich an, da JavaScript Programme JSON Objekte automatisch lesen und interpretieren können (daher auch der Name JavaScript Object Notation. Die map Funktion erhält als Eingabe eine Variable namens doc die für eines der abzufragenden Dokumente steht. Sie wird der Reihe nach für jedes Dokument der Datenbank aufgerufen. Während jeder Ausführung ruft sie die vordefinierte Funktion emit() auf, die zwei Eingabeparameter hat. Den Schlüssel der Ausgabe key und den zugehörigen Wert value. Sowohl für den Schlüssel als auch für den Wert können beliebige JSON Elemente (also atomare Werte, Arrays und Objekte) spezifiziert werden, die aus den Feldern des abzufragenden Dokuments zusammengesetzt werden können. Für die Reduce Phase kann neben selbst programmierten Funktionen aus einer Liste von vordefinierten Aggregatfunktionen gewählt werden, zu denen unter anderem sum und count zählen, die analog zu den gleichnamigen SQL Funktionen fungieren. Alternativ kann auch spezifiziert werden, auf eine Reduce Funktion komplett zu verzichten. Wählt man eine Reduce Funktion aus, so aggregiert diese die Werte aus der Map Phase zu einem skalaren Wert, wobei spezifiziert werden kann, ob dies global oder separat für jeden Wert des Schlüssels geschehen soll (letzteres entspräche GROUP BY key in SQL

Answer 31

Steht für die Kombination verschiedener Datenmanagementansätze entsprechend der betrieblichen Anforderungen