Big Data Flashcards
1
Q
Was macht Big Data aus?
A
Volume, Variety, Velocity, Veracity
2
Q
Was ist der Software Stack für Big Data Management?
A
Data Analysis
NoSQL, Search, Streaming oder SQL, Scripting
Data Processing Framework
Data Storage
parallel: Resource Management
3
Q
Was unterscheidet Spark von MapReduce?
A
Iteratives Vorgehen erleichtert
Invariante Daten (Resilient Distributed Dataset, RDD)
lazy => Optimierungen (Pipelining)
Lineage Graph
4
Q
Was sind die Vorteile von MapReduce gegenüber SQL?
A
Flexibilität
Skalierbarkeit
Effizienz
Fehlertoleranz
5
Q
Welche MapReduce Joins wurden vorgestellt?
A
Natural Join / Equi-Join
- Repartition Join
- Semi-Join
Theta-Join