19. A Big Data erőforrás- és feladat kezelése (Apache MapReduce, Apache YARN) Flashcards
b. Mutassa be az Apache MapReduce programozási paradigmát, ismertesse előnyeit és hátrányait, valamint a használatát a WordCount példán keresztül!
-Párhuzamos programozási paradigma –> elosztott környezetben történik adatfeldolgozás
-Hadoop ökoszisztéma alapja
-Oszd meg és uralkodj elv –> adatfeldolgozási elv
Fő fázisok:
Map (kötelező) –> kulcs-érték párba rendezés
Reduce (opcionális) –> aggregálás
Teljes folyamat –> input, splitting, mapping, shuffling, reducing
Input –> fájl beolvasás
Splitting –> blokkok felosztása –> sor szinten
Mapping –> felosztott sorok –> egyessével feldolgozás, kulcs-érték pár generálás
Shuffle & Sort –> kulcs-érték párok alapján rendezés
Reducing –> aggregálás logika alapján
+párhuzamos feldolgozás, gyors, batch alapú
-Realtime nem tud működni, gyors lekérdezésekre NEM alkalmas
c. Melyek az Apache YARN feladatai, szerepkörei, jellemzői, valamint mik az előnyei és hátrányai? Milyen erőforrásokat használ / kezel a feladati ellátásához?
YARN –> Yet Another Resource Manager
* Cél: Erőforrásmenedzselés –> erőforrások szétosztása
Feladatok:
* Erőforrás vezérlés
* Hiányzó/meghibásodott Node-ok kezelése
* Feladat ütemezés (beosztás sorrendje)
Szerepek:
* Resource manager (erőforrás menedzser) –> erőforrás vezérlő
* Node manager (Node vezérlő) –> monitorozás, heartbeat jeleket fogad
* Container –> entitások futtatása
* Application Master –> Összekötő a Resource és Node manager között
Ütemezése:
* FIFO (First In First Out)
* Kapacitás ütemezés –> Node-oknak mekkora kapacitása van (melyiknek oszthatja ki a kérést)
2 Ütemezés
Pure (Tiszta) ütemezés –> nem számít milyen állapotban vannak, oda küldi
Fair (odafigyelő) ütemezés –> Nézi, hogy elérhető-e
YARN Feladat ütemezés végrehajtás folyamata