03. Fájlformátumok Flashcards
Mely két fő csoportba oszthatók a Big Data fájlformátumok?
- oszlop-orientált
- sor-orientált
Melyek a tipikus sor- és oszlop-orientált fájlformátumok?
Sor - JSON, CSV, AVRO
Oszlop - Parquet, ORC
Melyek az oszlop-orientált adatformátumok előnyei?
- Hatékonyabb olvasás
- Könyebb tömöríthetőség
Melyek az oszlop-orientált adatformátumok hátrányai?
- rekord kiolvasása lassabb
- erőforrás igényesebb írás
Melyek a sor-orientált adatformátumok előnyei?
- rekord kiolvasása gyors
- adatok írása hatékonyabb
Melyek a sor-orientált adatformátumok hátrányai?
- olvasás lassabb
- tömöríthetőség nehezebb
Milyen típusai vannak a tömörítésnek?
- fájltömörítés
- blokktömörítés
- hálózati tömörítés
Melyik 3 fő tömörítési technikát használják a Big Data világban?
- Snappy
- Gzip
- Zstd
Mik a Snappy jellemzői?
- veszteségmentes
- nem felbontható
- 2x-es kompressziós ráta
- adatbázis tömörítés
Mik a Gzip jellemzői?
- veszteségmentes
- nem felbontható
- 2.7-3x-os kompressziós ráta
- HTTP tömörítés
Mik a Zstd jellemzői?
- veszteségmentes
- felbontható
- 2.8x-os kompressziós ráta
- valós idejű tömörítés
Melyek a főbb Big Data fájlformátumok?
- CSV
- JSON
- SEQ
- Avro
- RC
- ORC
- Parquet
- Delta Lake
- IceBerg
- Arrow
Melyek a CSV előnyei?
- könnyű olvashatóság
- könnyű kezelhetőség
- felbontható
Melyek a CSV hátrányai?
- nem támogatja az oszlopos tárolást
- problémás a speciális karakterek tárolása
- nincs univerzális standardja
Melyek a JSON előnyei?
- legtöbb alkalmazás támogatja
- támogatja a hierarchikus struktúrát
Melyek a JSON hátrányai?
- nem bontható fel
- sok esetben nem működik megfelelően a serializáció-deserializáció
Mi a SEQ fájlformátum?
- sequence files
- bináris
- kulcs érték pár tárolás
- metaadatokat nem tárol
- MAPReduce-hoz készült
Melyek a SEQ előnyei?
- támogatja a blokk/rekord tömörítést
- felbontható
- gyorsabb a CSV-nél
Melyek a SEQ hátrányai?
- HADOOP specifikus
- csak JAVA API képes kezelni
Mi az Avro fájlformátum?
- metadatokat is tárol (adattípus séma)
- sémát JSON-ban tárolja
- bináris
- sor-orientált
Melyek az Avro előnyei?
- támogatja a séma-evolúciót
- írási műveletekhez kiváló
- felbontható és tömöríthető
Melyek az Avro hátrányai?
- lassú szerializáció-deszerializáció
- szükség van hozzá a sémához
Mi az RC fájlformátum?
- Record Columnar File
- bináris
- felbontható
- sor csoportokra osztja az adatokat, amin belül pedig oszlopokra
- metadatokat nem tárol