- XML: Extensible Markup Language - Auszeichnungssprache - Metasprache zur Definition von Dokumenten und Daten - Syntax zum Strukturieren von Dokumenten und Daten - strukturierte Repräsentation und den Austausch von Informationen (Integration)

Datenmanagement Flashcards by Yu On

Was ist XML?

XML: Extensible Markup Language
Auszeichnungssprache
Metasprache zur Definition von Dokumenten und Daten
Syntax zum Strukturieren von Dokumenten und Daten
strukturierte Repräsentation und den Austausch von Informationen (Integration)

How well did you know this?

Not at all

Perfectly

Was sind die Charakteristiken von XML?

einfach(intuitive Darstellung)
erweiterbar(generische Syntax, Zusatz-Standards nutzen diese Syntax)
standardisiert(weit verbreitet, Standard Tool)

How well did you know this?

Not at all

Perfectly

Wie ist die Syntax von XML?

hierarchische Schachtelung von Beginn- und End-Tags
je XML Dokument genau ein Root-Element
Groß-/Kleinschreibung relevant
Attributwerte müssen mit Anführungsstrichen eingeschlossen sien

How well did you know this?

Not at all

Perfectly

Welche Dokumenttypen gibt es bei XML?

Einhaltung der XML-Syntax:
-well formed XML Dokument

Wohlgeformt und konformes Exemplar eines Dokumenttyps:
-valid XML Dokument

Metasprachliche Festlegung von Dokumenttypen:
-XSD: XML Schema Definition

How well did you know this?

Not at all

Perfectly

Was wird im XSD-Dokument definiert?

Aufbau eines XML-Dokuments wird definiert
beschreibt die Struktur der XML-Dokumente
XSD ist die 1. Meta Ebene, umfasst die Definition von Datenstrukturen und die Typisierung

How well did you know this?

Not at all

Perfectly

Wie werden Elemente definiert mit XSD für XML-Dokumente?

Mit Hilfe des Tags.

- jedes Element enthält einen Namen und einfachen Datentyp

How well did you know this?

Not at all

Perfectly

Wie werden Attribute definiert mit XSD für XML-Dokumente?

Mit Attribut Tag.

How well did you know this?

Not at all

Perfectly

Was sind Complex Type Elemente bei XSD?

Complex Type Elemente können weitere Elemente und Attribute enthalten
mehrere Einträge möglich

How well did you know this?

Not at all

Perfectly

Was ist die Motivation für andere, nicht relationale DB-Technologien?

Bedeutung von Information wächst
mit Verdopplung von Informationen innerhalb weniger Jahren wird gerechnet
Ablage in Papierform nicht effizient
Daten und Informationen in unterschiedlichen Formaten
Verteilung der Daten auf mehrere Systeme notwendig/sinnvoll

How well did you know this?

Not at all

Perfectly

Welches Prinzip wird bei relationalen DB verfolgt?

das ACID-Prinzip

- Atomicity, Consistency, Isolation und Durability müssen erfüllt sein

How well did you know this?

Not at all

Perfectly

Welches Prinzip wäre bei verteilten DB Systemen ein alternativer Ansatz?

BASE-Prinzip
Basically Available, Soft State, Eventually Consistent
Konsistenz wird der Verfügbarkeit untergeordnet

How well did you know this?

Not at all

Perfectly

Was ist das CAP-Theorem von Eric Brewer?

Consistency:
-alle Clients sehen zur selben Zeit die selben Daten

Availabilty:
-Ausfall eines Clienten hindert restliche Clients nicht am Weiterarbeiten

Partition Tolerance:
-verteiltes System arbeitet trotz zufälliger Verluste von Nachrichten fehlerfrei weiter

How well did you know this?

Not at all

Perfectly

Was sind die Eigenschaften vom CAP-Theorem?

jedes verteilte System erfüllt zwei der CAP-Anforderungen gleichzeitig
wenn die DB verteilt ist und die Partitionstoleranz gegeben ist, behinder die Konsistenz die Verfügbarkeit
bei hoher Verfügbarkeit kann Konsistenz nicht gewährleistet sein

How well did you know this?

Not at all

Perfectly

Was sind NoSQL-Datenbanken?

besitzen im Gegensatz zu relationalen DB kein festes Schema
sind auf verteilte Systeme ausgerichtet, ermöglicht horizontal skalierbare und strukturierbare Datenspeicher
es können viele, kostengünstige Rechner für Speicherung verwendet werden
Performance Steigerung durch den Einsatz mehrerer Server

How well did you know this?

Not at all

Perfectly

Welche 4 Kategorien von NoSQL-DB gibt es?

Key-Value Paare
Dokumentenorientierte DB
Spaltenorientierte DB
Graphenorientierte DB

How well did you know this?

Not at all

Perfectly

Was bedeutet die Kategorie Key-Value Paare bei NoSQL-DB?

Die Elemente werden über eindeutige Keys referenziert

- Diese Key werden zusammen mit den Pointern in einer Hastable gespeichert

Was bedeutet die Kategorie Dokumentenorientierte DB bei NoSQL-DB?

Daten werden in Dokumenten gespeichert
Ein Dokument beinhaltet Daten, die üblicherweide in einer Abfrage abgefragt werden
Dokument besitzt kein Schema
Dokument besitzt einen Key, über den das Dokument aufgerufen werden kann

Was bedeutet die Kategorie Spaltenorientierte Datenbanken bei NoSQL-DB?

Famielen/Gruppen von Spalten werden definiert, die zusammen betrachtet werden.
Bündel von Daten, wie z.B. Name und Adresse eines Kunden oder Liste von Bestellungen
eignet sich sehr gut für Verteilung von Daten
Änderungen der Struktur der Gruppierungen problematisch

Was bedeutet die Kategorie Graphenorientierte DB bei NoSQL-DB?

Speicherung von Daten in Knoten von Graphen

- Herstellen von Beziehungen zwischen den Knoten

Was ist Big Data?

High Volume, High Velocity and high variety information assets that demand cost-effective, innovative fors of informations processing for enhanced insight and decision making.

Was sind die 3 V`s von Big Date?

Volume:
-Verarbeitung großer Datenmengen mit dem Ziel, bestimmte Fragestellungen effizient zu lösen

Velocity:
-Daten ändern sich mit hoher Geschwindigkeit, muss regelmäßig aktualisiert werden

Variety:
-Verarbeitung von Daten aus unterschiedlichen Quellen, die in unterschiedlichen Formaten vorliegen

Welche zusätzlichen V`s hat Big Data?

Viability:
-Brauchbarkeit, Extraktion von Strukturen, Beziehungen und Informationen zur Entscheidungsunterstützung aus großer Datenmenge

Value:
-Information müssen Wertschöpfung dienen, Entscheidungsunterstützung dienen

Was ist MapReduce?

von Google entwickeltes Programmiermodell zur parallelen Verarbeitung von großen Datenbeständen
Verarbeitung unstrukturierte oder semi-strukturierte Daten
nutzt verteilte Speicherung der Daten in Blöcken
Aufteilung der Berechnungen auf mehrere Rechner
nach Berechnung aggregiert das Framework die Ergebnisse

Was sind Vorteile von MapReduce?

Entwickler müssen nur das Framework nutzen, keine Codeänderungen bei Änderung der Anzahl von Clients nötig
Verwendung normaler Computer möglich
keine Notwendigkeit für spezielle High-End Server
Skalierbarkeit
hohe Fehlertoleranz
hohe Ausfallsicherheit

Welche Phasen hat MapReduce?

1. Splitting - Datenmenge auf mehrere Teile aufteilen 2. Mapping - zu jedem Element wird neues Key Value Paar erstellt - Output: Liste mit neuen Key Value Paaren 3. Reducing - Input Key Value Paare - Aggregation der Listenwerte nach Key - Ergebnis: list

Wie ist der Vergleich zwischen MapReduce und relationalen DBS?

MapReduce: - für Batch Verarbeitung von Daten - unstrukturierte Daten - nicht-normalisierte Daten - Petabytes - einmaliges Schreiben, vielfaches Lesen - dynamische Struktur - geringe Integrität - linear skalierbar Relationale DBS: - gezielte Abfragen - strukturierte Daten - normalisierte Daten - Gigabytes - Interaktive und Batch Zugriff - statisches Schema - hohe Integrität - nicht linear skalierbar

Was ist Hadoop?

- Open Source Framework von Apache | - dient der parallelen Speicherung und Verarbeitung von großen Datenmengen in verteilten Anwendungssystemen

Was sind die Eigenschaften von Hadoop?

- Redundanz, dadurch hohe Ausfallsicherheit - Skalierbar, lineare Skalierbarkeit wird durch Master-Slave"Shared Nothing" Konzept erreicht - Fehlertoleranz: Wiederherstellungspunkte und Änderungsdokumentationen

Was sind die Kernkomponenten von Hadoop?

- Zookeeper(Koordination des Clusters) - HBase(Key-value-store) - HDFS(Datenspeicherung) - MapReduce(Datenverarbeitung) - Avro(RPC- und Serialisierungs-Framework)

Wie ist HDFS von Hadoop aufgebaut?

Name node(nur Master): - Metadaten der Dateien - Zuordnung von Dateiblöcken zu Dateien - zuständig für alle Änderungen an Daten und Verzeichnissen Data node: - beinhaltet die Daten - aufgeteilt in mehreren Dateiblöcken - jeder Dateblock n-mal repliziert

Wie ist die MapReduce Engine von Hadoop aufgebaut?

Job Tracker(nur Master): - erhält Job vom Client - bestimmt Anzahl der Tasks - bestimmt, welcher Rechnerknoten welche Task ausführt Task Tracker: - erhält Tasks vom Job Tracker - Ausführung des Tasks - Status Update an den Job Tracker

Was sind Vorteile von NoSQL Datenbanken?

- Datenreplikation einfach möglich - einfache API (Programmierschnittstelle) - Open Source Projekte verfügbar