Werkzeuge, Technologien, Datenquellen Flashcards
Konzept - Datenbanken
- Datenbank ist eine Sammlung von Daten, die auf eine bestimmte Art organisiert sind
- Daten sind Symbole zur Erfassung und Kommunikation
- Organisierung der Daten wird durch Metadaten beschreiben
Konzept - Datenbank Management Systeme
-Datenbank Management System(DBMS) ist eine Software zur Erstellung, Speicherung, Abruf von Daten, Erstellung von User-Schnittstellen, Berichterstellung und Verwaltung eines DB Systems
Konzept - Attribute
- Domain des Attributes = Set der erlaubten Werte
- Spezialwert NULL ist Teil jeder Domain und kennzeichnet, dass der Wert nicht bekannt
Konzept - Beziehungen von Attributen
- A1, A2, …, An sind Attribute
- R = (A1, A2, …, An) ist ein Beziehungsschema
- aktuelle Werte der Beziehung werden durch die Tabelle vorgegeben
- ein Element t von r nennt sich Tuple und wird durch eine Zeile der Tabelle abgebildet
Konzept - Keys
- K Element R
- K ist ein Super Key von R, wenn Werte von K ausreichend sind Tuples eindeutig zu identifizieren r(R)
- einer der Super Keys wird zum Primary Key
- Foreign Key: Wert in einer Beziehung muss auch in einer anderen Beziehung auftauchen
Konzept - SQL
-SQL (Structured Query Language) ist eine Programmiersprache, die dafür designt wurde Daten in rationalen Datenbanksystem zu verwalten/bearbeiten
Datenbanksystem Klassikation - Überblick
-Relation Store - RDBMS
NoSQL Datenbanken
- Column Store: Jeder Speicherblock enthält nur Daten aus einer Spalte
- Document Store: Speicherung von Dokumenten durch markierte Elemente
- Key-Value-Store: Hash Tabelle von Keys
- XML Datenbanken
- Graph Datenbanken
- Object Oriented Databases
Datenbanken Klassifikation
SQL Datenbanken
- Vordefiniertes Schema
- Standarddefinition und Interface Sprache
- Hohe Konsistenz und streng reglementierte Semantic
NoSQL Datenbanken
- Kein vordefiniertes Schema
- Definition pro Produkt und Interface Sprache
- schnelle Antwort ist wichtiger als eine absolut korrekte Antwort
Graph Datenbank
-Eine Graph Datenbank ist eine Datenbank, die Grafstrukturen mit Knoten, Kanten, Beziehungen und Eigenschaften für semantische Abfragen nutzt
OLAP Datenbanken
- Online Analytical Processing ist eine computer-basierte Technik zur analytischen multidimensionalen Datenabfrage
- OLAP Cube bezieht sich meist auf ein multidimensionales Array von Daten, Hypercube, da mehr als drei Dimensionen
Hadoop
-Apache Hadoop ist ein open-source Software Framework zur Speicherdistribution und Processingdistribution sehr großer Datensets auf Computercluster bestehenend aus gemeinsam genutzter Hardware –> von Yahoo
Spark
-Spark ist eine schnelle und generell andwendbare Engine für die Verarbeitung/Berechnung von großen Datensets
Big Data Framework
-Vorgefertigtes und vorkompliliertes Set von Werkzeugen und Technologien, die benötigt werden zur Verarbeitung bon Big Data, basierend auf Hadoop
Analytical Data Processing Plattform
- Analytical Data Processing Platform ist eine Software, die ein integriertes Environment für Machine Learing, Data Mining, Text Mining Predictive Analytics und Business Analytics vereint
- Analytical Data Processing Platforms unterstützen alle Schritte des Data Mining Prozesses, inklusive Datenaufbereitung, Ergebnisvisualiserung, Validation und Optimierung