Datenmanagement Flashcards
Was ist XML?
- XML: Extensible Markup Language
- Auszeichnungssprache
- Metasprache zur Definition von Dokumenten und Daten
- Syntax zum Strukturieren von Dokumenten und Daten
- strukturierte Repräsentation und den Austausch von Informationen (Integration)
Was sind die Charakteristiken von XML?
- einfach(intuitive Darstellung)
- erweiterbar(generische Syntax, Zusatz-Standards nutzen diese Syntax)
- standardisiert(weit verbreitet, Standard Tool)
Wie ist die Syntax von XML?
- hierarchische Schachtelung von Beginn- und End-Tags
- je XML Dokument genau ein Root-Element
- Groß-/Kleinschreibung relevant
- Attributwerte müssen mit Anführungsstrichen eingeschlossen sien
Welche Dokumenttypen gibt es bei XML?
Einhaltung der XML-Syntax:
-well formed XML Dokument
Wohlgeformt und konformes Exemplar eines Dokumenttyps:
-valid XML Dokument
Metasprachliche Festlegung von Dokumenttypen:
-XSD: XML Schema Definition
Was wird im XSD-Dokument definiert?
- Aufbau eines XML-Dokuments wird definiert
- beschreibt die Struktur der XML-Dokumente
- XSD ist die 1. Meta Ebene, umfasst die Definition von Datenstrukturen und die Typisierung
Wie werden Elemente definiert mit XSD für XML-Dokumente?
- Mit Hilfe des Tags.
- jedes Element enthält einen Namen und einfachen Datentyp
Wie werden Attribute definiert mit XSD für XML-Dokumente?
Mit Attribut Tag.
Was sind Complex Type Elemente bei XSD?
- Complex Type Elemente können weitere Elemente und Attribute enthalten
- mehrere Einträge möglich
Was ist die Motivation für andere, nicht relationale DB-Technologien?
- Bedeutung von Information wächst
- mit Verdopplung von Informationen innerhalb weniger Jahren wird gerechnet
- Ablage in Papierform nicht effizient
- Daten und Informationen in unterschiedlichen Formaten
- Verteilung der Daten auf mehrere Systeme notwendig/sinnvoll
Welches Prinzip wird bei relationalen DB verfolgt?
- das ACID-Prinzip
- Atomicity, Consistency, Isolation und Durability müssen erfüllt sein
Welches Prinzip wäre bei verteilten DB Systemen ein alternativer Ansatz?
- BASE-Prinzip
- Basically Available, Soft State, Eventually Consistent
- Konsistenz wird der Verfügbarkeit untergeordnet
Was ist das CAP-Theorem von Eric Brewer?
Consistency:
-alle Clients sehen zur selben Zeit die selben Daten
Availabilty:
-Ausfall eines Clienten hindert restliche Clients nicht am Weiterarbeiten
Partition Tolerance:
-verteiltes System arbeitet trotz zufälliger Verluste von Nachrichten fehlerfrei weiter
Was sind die Eigenschaften vom CAP-Theorem?
- jedes verteilte System erfüllt zwei der CAP-Anforderungen gleichzeitig
- wenn die DB verteilt ist und die Partitionstoleranz gegeben ist, behinder die Konsistenz die Verfügbarkeit
- bei hoher Verfügbarkeit kann Konsistenz nicht gewährleistet sein
Was sind NoSQL-Datenbanken?
- besitzen im Gegensatz zu relationalen DB kein festes Schema
- sind auf verteilte Systeme ausgerichtet, ermöglicht horizontal skalierbare und strukturierbare Datenspeicher
- es können viele, kostengünstige Rechner für Speicherung verwendet werden
- Performance Steigerung durch den Einsatz mehrerer Server
Welche 4 Kategorien von NoSQL-DB gibt es?
- Key-Value Paare
- Dokumentenorientierte DB
- Spaltenorientierte DB
- Graphenorientierte DB
Was bedeutet die Kategorie Key-Value Paare bei NoSQL-DB?
- Die Elemente werden über eindeutige Keys referenziert
- Diese Key werden zusammen mit den Pointern in einer Hastable gespeichert
Was bedeutet die Kategorie Dokumentenorientierte DB bei NoSQL-DB?
- Daten werden in Dokumenten gespeichert
- Ein Dokument beinhaltet Daten, die üblicherweide in einer Abfrage abgefragt werden
- Dokument besitzt kein Schema
- Dokument besitzt einen Key, über den das Dokument aufgerufen werden kann
Was bedeutet die Kategorie Spaltenorientierte Datenbanken bei NoSQL-DB?
- Famielen/Gruppen von Spalten werden definiert, die zusammen betrachtet werden.
- Bündel von Daten, wie z.B. Name und Adresse eines Kunden oder Liste von Bestellungen
- eignet sich sehr gut für Verteilung von Daten
- Änderungen der Struktur der Gruppierungen problematisch
Was bedeutet die Kategorie Graphenorientierte DB bei NoSQL-DB?
- Speicherung von Daten in Knoten von Graphen
- Herstellen von Beziehungen zwischen den Knoten
Was ist Big Data?
High Volume, High Velocity and high variety information assets that demand cost-effective, innovative fors of informations processing for enhanced insight and decision making.
Was sind die 3 V`s von Big Date?
Volume:
-Verarbeitung großer Datenmengen mit dem Ziel, bestimmte Fragestellungen effizient zu lösen
Velocity:
-Daten ändern sich mit hoher Geschwindigkeit, muss regelmäßig aktualisiert werden
Variety:
-Verarbeitung von Daten aus unterschiedlichen Quellen, die in unterschiedlichen Formaten vorliegen
Welche zusätzlichen V`s hat Big Data?
Viability:
-Brauchbarkeit, Extraktion von Strukturen, Beziehungen und Informationen zur Entscheidungsunterstützung aus großer Datenmenge
Value:
-Information müssen Wertschöpfung dienen, Entscheidungsunterstützung dienen
Was ist MapReduce?
- von Google entwickeltes Programmiermodell zur parallelen Verarbeitung von großen Datenbeständen
- Verarbeitung unstrukturierte oder semi-strukturierte Daten
- nutzt verteilte Speicherung der Daten in Blöcken
- Aufteilung der Berechnungen auf mehrere Rechner
- nach Berechnung aggregiert das Framework die Ergebnisse
Was sind Vorteile von MapReduce?
- Entwickler müssen nur das Framework nutzen, keine Codeänderungen bei Änderung der Anzahl von Clients nötig
- Verwendung normaler Computer möglich
- keine Notwendigkeit für spezielle High-End Server
- Skalierbarkeit
- hohe Fehlertoleranz
- hohe Ausfallsicherheit