18. A Big Data ökoszisztémája (Apache Hadoop, Apache HDFS) Flashcards
a. Mi a Big Data definíciója, ismertesse a 5V elméletet?
Big Data: olyan adathalmaz, melybe az adatok nagy mennyiségben, nagy sebességgel, és változatos módon érkeznek
3V:
Volume **(mennyiség): nagy mennyiségű struktúrálatlan adatot kezelünk
Velocity (sebesség): különböző sebességben érkeznek adatok
-Batch –> kupacok feldolgozása
-Realtime –> ahogy megjelenik az adat feldolgozásra kerül
-Stream –> ugyan az csak –> folyamatosan jönnek az adatok
5V esetén kiegészül
-Value (érték) –> adatoknak értéket kell képviselniük
-Veracity (megbízhatóság) –> adatoknak megbízhatónak kell lenniük
b. Ismertesse az Apache Hadoop ökoszisztéma fő elemeit az ábra alapján!
Quizlet-es cucc!
c. Mutassa be az Apache HDFS jellemzőit, használatát, előnyeit és hátrányait az ábra alapján!
Namenode
Datanode
Block ops
Kliens (olvasás, írás)
Metadata