02. Hadoop Flashcards

1
Q

Miért előnyös a Hadoop?

A
  1. megbízható - ha egy feldolgozó egység kiesik, egy másik veszi át a helyét
  2. költséghatékony - általános hardverekkel működik
  3. skálázható - könnyen hozzácsatolhatók plusz feldolgozó egységek
  4. flexibilis - bármilyen adattípust tud kezelni
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Mi jellemzi a HDFS-t?

A
  1. egyszeri írás, többszöri olvasás
  2. feldolgozás mozog az adathoz
  3. fájlrendszer név terek (könnyű navigáció
  4. blokk-alapú tárolás
  5. master-slave architektúra
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Milyen részekből áll a HDFS architektúrája?

A
  1. Name node (metaadatok tárolása, alnode-ok menedzselése)
    1.1. FsImage - a névtér állapotát tartja számon az indulástól kezdve
    1.2. EditLogs - tárolja a fájlrendszerben végzett módosításokat
  2. Data nodes
  3. Secondary name node - az FsImage és az EditLogs fájlokat kezeli (nem helyettesíti a name node-ot)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Mi a name node szerepe?

A
  1. metadatokat kezel a fájlrendszerről beleértve a módosítások loholását is
  2. blokk riportokat és életjeleket fogad a data node-októl
  3. kezeli a data node-ok replikációit
  4. data node kiesésekor helyreállítást végez
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Mi a data node szerepe?

A
  1. tárolja az adatokat
  2. elvégzi az olvasási és írási feladatokat riportokat és életjeleket küld a name node számára
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Mik okozhatnak gondot a HDFS-nek?

A
  1. túl kicsi fájlok -> nagy adatforgalom, I/O fennakadások
  2. túl kicsi blokkok -> látencia
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Mely részekből áll a YARN?

A
  1. ResourceManager - felelős az összes klasztererőforrás felügyeletéért
  2. NodeManager - felelős az adott csomóponton található erőforrások felügyeletéért és az alkalmazások kiszolgálásáért
  3. Alkalmazáskonténerek - erőforrások izolálására és a feladatok futtatására
  4. ApplicationMaster - felelős az adott alkalmazás erőforrás-igényeinek kezeléséért
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Mik a MapReduce folyamatának lépései?

A
  1. Read data
  2. Map data
  3. Shuffle/Sort data
  4. Reduce data
  5. Write result
How well did you know this?
1
Not at all
2
3
4
5
Perfectly