02. Hadoop Flashcards
1
Q
Miért előnyös a Hadoop?
A
- megbízható - ha egy feldolgozó egység kiesik, egy másik veszi át a helyét
- költséghatékony - általános hardverekkel működik
- skálázható - könnyen hozzácsatolhatók plusz feldolgozó egységek
- flexibilis - bármilyen adattípust tud kezelni
2
Q
Mi jellemzi a HDFS-t?
A
- egyszeri írás, többszöri olvasás
- feldolgozás mozog az adathoz
- fájlrendszer név terek (könnyű navigáció
- blokk-alapú tárolás
- master-slave architektúra
3
Q
Milyen részekből áll a HDFS architektúrája?
A
- Name node (metaadatok tárolása, alnode-ok menedzselése)
1.1. FsImage - a névtér állapotát tartja számon az indulástól kezdve
1.2. EditLogs - tárolja a fájlrendszerben végzett módosításokat - Data nodes
- Secondary name node - az FsImage és az EditLogs fájlokat kezeli (nem helyettesíti a name node-ot)
4
Q
Mi a name node szerepe?
A
- metadatokat kezel a fájlrendszerről beleértve a módosítások loholását is
- blokk riportokat és életjeleket fogad a data node-októl
- kezeli a data node-ok replikációit
- data node kiesésekor helyreállítást végez
5
Q
Mi a data node szerepe?
A
- tárolja az adatokat
- elvégzi az olvasási és írási feladatokat riportokat és életjeleket küld a name node számára
6
Q
Mik okozhatnak gondot a HDFS-nek?
A
- túl kicsi fájlok -> nagy adatforgalom, I/O fennakadások
- túl kicsi blokkok -> látencia
7
Q
Mely részekből áll a YARN?
A
- ResourceManager - felelős az összes klasztererőforrás felügyeletéért
- NodeManager - felelős az adott csomóponton található erőforrások felügyeletéért és az alkalmazások kiszolgálásáért
- Alkalmazáskonténerek - erőforrások izolálására és a feladatok futtatására
- ApplicationMaster - felelős az adott alkalmazás erőforrás-igényeinek kezeléséért
8
Q
Mik a MapReduce folyamatának lépései?
A
- Read data
- Map data
- Shuffle/Sort data
- Reduce data
- Write result