Datenmanagement Flashcards

1
Q

Was ist XML?

A
  • XML: Extensible Markup Language
  • Auszeichnungssprache
  • Metasprache zur Definition von Dokumenten und Daten
  • Syntax zum Strukturieren von Dokumenten und Daten
  • strukturierte Repräsentation und den Austausch von Informationen (Integration)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was sind die Charakteristiken von XML?

A
  • einfach(intuitive Darstellung)
  • erweiterbar(generische Syntax, Zusatz-Standards nutzen diese Syntax)
  • standardisiert(weit verbreitet, Standard Tool)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wie ist die Syntax von XML?

A
  • hierarchische Schachtelung von Beginn- und End-Tags
  • je XML Dokument genau ein Root-Element
  • Groß-/Kleinschreibung relevant
  • Attributwerte müssen mit Anführungsstrichen eingeschlossen sien
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Welche Dokumenttypen gibt es bei XML?

A

Einhaltung der XML-Syntax:
-well formed XML Dokument

Wohlgeformt und konformes Exemplar eines Dokumenttyps:
-valid XML Dokument

Metasprachliche Festlegung von Dokumenttypen:
-XSD: XML Schema Definition

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was wird im XSD-Dokument definiert?

A
  • Aufbau eines XML-Dokuments wird definiert
  • beschreibt die Struktur der XML-Dokumente
  • XSD ist die 1. Meta Ebene, umfasst die Definition von Datenstrukturen und die Typisierung
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wie werden Elemente definiert mit XSD für XML-Dokumente?

A
  • Mit Hilfe des Tags.

- jedes Element enthält einen Namen und einfachen Datentyp

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wie werden Attribute definiert mit XSD für XML-Dokumente?

A

Mit Attribut Tag.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was sind Complex Type Elemente bei XSD?

A
  • Complex Type Elemente können weitere Elemente und Attribute enthalten
  • mehrere Einträge möglich
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist die Motivation für andere, nicht relationale DB-Technologien?

A
  • Bedeutung von Information wächst
  • mit Verdopplung von Informationen innerhalb weniger Jahren wird gerechnet
  • Ablage in Papierform nicht effizient
  • Daten und Informationen in unterschiedlichen Formaten
  • Verteilung der Daten auf mehrere Systeme notwendig/sinnvoll
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Welches Prinzip wird bei relationalen DB verfolgt?

A
  • das ACID-Prinzip

- Atomicity, Consistency, Isolation und Durability müssen erfüllt sein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Welches Prinzip wäre bei verteilten DB Systemen ein alternativer Ansatz?

A
  • BASE-Prinzip
  • Basically Available, Soft State, Eventually Consistent
  • Konsistenz wird der Verfügbarkeit untergeordnet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was ist das CAP-Theorem von Eric Brewer?

A

Consistency:
-alle Clients sehen zur selben Zeit die selben Daten

Availabilty:
-Ausfall eines Clienten hindert restliche Clients nicht am Weiterarbeiten

Partition Tolerance:
-verteiltes System arbeitet trotz zufälliger Verluste von Nachrichten fehlerfrei weiter

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was sind die Eigenschaften vom CAP-Theorem?

A
  • jedes verteilte System erfüllt zwei der CAP-Anforderungen gleichzeitig
  • wenn die DB verteilt ist und die Partitionstoleranz gegeben ist, behinder die Konsistenz die Verfügbarkeit
  • bei hoher Verfügbarkeit kann Konsistenz nicht gewährleistet sein
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was sind NoSQL-Datenbanken?

A
  • besitzen im Gegensatz zu relationalen DB kein festes Schema
  • sind auf verteilte Systeme ausgerichtet, ermöglicht horizontal skalierbare und strukturierbare Datenspeicher
  • es können viele, kostengünstige Rechner für Speicherung verwendet werden
  • Performance Steigerung durch den Einsatz mehrerer Server
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Welche 4 Kategorien von NoSQL-DB gibt es?

A
  1. Key-Value Paare
  2. Dokumentenorientierte DB
  3. Spaltenorientierte DB
  4. Graphenorientierte DB
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was bedeutet die Kategorie Key-Value Paare bei NoSQL-DB?

A
  • Die Elemente werden über eindeutige Keys referenziert

- Diese Key werden zusammen mit den Pointern in einer Hastable gespeichert

17
Q

Was bedeutet die Kategorie Dokumentenorientierte DB bei NoSQL-DB?

A
  • Daten werden in Dokumenten gespeichert
  • Ein Dokument beinhaltet Daten, die üblicherweide in einer Abfrage abgefragt werden
  • Dokument besitzt kein Schema
  • Dokument besitzt einen Key, über den das Dokument aufgerufen werden kann
18
Q

Was bedeutet die Kategorie Spaltenorientierte Datenbanken bei NoSQL-DB?

A
  • Famielen/Gruppen von Spalten werden definiert, die zusammen betrachtet werden.
  • Bündel von Daten, wie z.B. Name und Adresse eines Kunden oder Liste von Bestellungen
  • eignet sich sehr gut für Verteilung von Daten
  • Änderungen der Struktur der Gruppierungen problematisch
19
Q

Was bedeutet die Kategorie Graphenorientierte DB bei NoSQL-DB?

A
  • Speicherung von Daten in Knoten von Graphen

- Herstellen von Beziehungen zwischen den Knoten

20
Q

Was ist Big Data?

A

High Volume, High Velocity and high variety information assets that demand cost-effective, innovative fors of informations processing for enhanced insight and decision making.

21
Q

Was sind die 3 V`s von Big Date?

A

Volume:
-Verarbeitung großer Datenmengen mit dem Ziel, bestimmte Fragestellungen effizient zu lösen

Velocity:
-Daten ändern sich mit hoher Geschwindigkeit, muss regelmäßig aktualisiert werden

Variety:
-Verarbeitung von Daten aus unterschiedlichen Quellen, die in unterschiedlichen Formaten vorliegen

22
Q

Welche zusätzlichen V`s hat Big Data?

A

Viability:
-Brauchbarkeit, Extraktion von Strukturen, Beziehungen und Informationen zur Entscheidungsunterstützung aus großer Datenmenge

Value:
-Information müssen Wertschöpfung dienen, Entscheidungsunterstützung dienen

23
Q

Was ist MapReduce?

A
  • von Google entwickeltes Programmiermodell zur parallelen Verarbeitung von großen Datenbeständen
  • Verarbeitung unstrukturierte oder semi-strukturierte Daten
  • nutzt verteilte Speicherung der Daten in Blöcken
  • Aufteilung der Berechnungen auf mehrere Rechner
  • nach Berechnung aggregiert das Framework die Ergebnisse
24
Q

Was sind Vorteile von MapReduce?

A
  • Entwickler müssen nur das Framework nutzen, keine Codeänderungen bei Änderung der Anzahl von Clients nötig
  • Verwendung normaler Computer möglich
  • keine Notwendigkeit für spezielle High-End Server
  • Skalierbarkeit
  • hohe Fehlertoleranz
  • hohe Ausfallsicherheit
25
Welche Phasen hat MapReduce?
1. Splitting - Datenmenge auf mehrere Teile aufteilen 2. Mapping - zu jedem Element wird neues Key Value Paar erstellt - Output: Liste mit neuen Key Value Paaren 3. Reducing - Input Key Value Paare - Aggregation der Listenwerte nach Key - Ergebnis: list
26
Wie ist der Vergleich zwischen MapReduce und relationalen DBS?
MapReduce: - für Batch Verarbeitung von Daten - unstrukturierte Daten - nicht-normalisierte Daten - Petabytes - einmaliges Schreiben, vielfaches Lesen - dynamische Struktur - geringe Integrität - linear skalierbar Relationale DBS: - gezielte Abfragen - strukturierte Daten - normalisierte Daten - Gigabytes - Interaktive und Batch Zugriff - statisches Schema - hohe Integrität - nicht linear skalierbar
27
Was ist Hadoop?
- Open Source Framework von Apache | - dient der parallelen Speicherung und Verarbeitung von großen Datenmengen in verteilten Anwendungssystemen
28
Was sind die Eigenschaften von Hadoop?
- Redundanz, dadurch hohe Ausfallsicherheit - Skalierbar, lineare Skalierbarkeit wird durch Master-Slave"Shared Nothing" Konzept erreicht - Fehlertoleranz: Wiederherstellungspunkte und Änderungsdokumentationen
29
Was sind die Kernkomponenten von Hadoop?
- Zookeeper(Koordination des Clusters) - HBase(Key-value-store) - HDFS(Datenspeicherung) - MapReduce(Datenverarbeitung) - Avro(RPC- und Serialisierungs-Framework)
30
Wie ist HDFS von Hadoop aufgebaut?
Name node(nur Master): - Metadaten der Dateien - Zuordnung von Dateiblöcken zu Dateien - zuständig für alle Änderungen an Daten und Verzeichnissen Data node: - beinhaltet die Daten - aufgeteilt in mehreren Dateiblöcken - jeder Dateblock n-mal repliziert
31
Wie ist die MapReduce Engine von Hadoop aufgebaut?
Job Tracker(nur Master): - erhält Job vom Client - bestimmt Anzahl der Tasks - bestimmt, welcher Rechnerknoten welche Task ausführt Task Tracker: - erhält Tasks vom Job Tracker - Ausführung des Tasks - Status Update an den Job Tracker
32
Was sind Vorteile von NoSQL Datenbanken?
- Datenreplikation einfach möglich - einfache API (Programmierschnittstelle) - Open Source Projekte verfügbar