03. Fájlformátumok Flashcards by Tamás László Tóth

Mely két fő csoportba oszthatók a Big Data fájlformátumok?

oszlop-orientált
sor-orientált

How well did you know this?

Not at all

Perfectly

Melyek a tipikus sor- és oszlop-orientált fájlformátumok?

Sor - JSON, CSV, AVRO
Oszlop - Parquet, ORC

How well did you know this?

Not at all

Perfectly

Melyek az oszlop-orientált adatformátumok előnyei?

Hatékonyabb olvasás
Könyebb tömöríthetőség

How well did you know this?

Not at all

Perfectly

Melyek az oszlop-orientált adatformátumok hátrányai?

rekord kiolvasása lassabb
erőforrás igényesebb írás

How well did you know this?

Not at all

Perfectly

Melyek a sor-orientált adatformátumok előnyei?

rekord kiolvasása gyors
adatok írása hatékonyabb

How well did you know this?

Not at all

Perfectly

Melyek a sor-orientált adatformátumok hátrányai?

olvasás lassabb
tömöríthetőség nehezebb

How well did you know this?

Not at all

Perfectly

Milyen típusai vannak a tömörítésnek?

fájltömörítés
blokktömörítés
hálózati tömörítés

How well did you know this?

Not at all

Perfectly

Melyik 3 fő tömörítési technikát használják a Big Data világban?

Snappy
Gzip
Zstd

How well did you know this?

Not at all

Perfectly

Mik a Snappy jellemzői?

veszteségmentes
nem felbontható
2x-es kompressziós ráta
adatbázis tömörítés

How well did you know this?

Not at all

Perfectly

Mik a Gzip jellemzői?

veszteségmentes
nem felbontható
2.7-3x-os kompressziós ráta
HTTP tömörítés

How well did you know this?

Not at all

Perfectly

Mik a Zstd jellemzői?

veszteségmentes
felbontható
2.8x-os kompressziós ráta
valós idejű tömörítés

How well did you know this?

Not at all

Perfectly

Melyek a főbb Big Data fájlformátumok?

CSV
JSON
SEQ
Avro
RC
ORC
Parquet
Delta Lake
IceBerg
Arrow

How well did you know this?

Not at all

Perfectly

Melyek a CSV előnyei?

könnyű olvashatóság
könnyű kezelhetőség
felbontható

How well did you know this?

Not at all

Perfectly

Melyek a CSV hátrányai?

nem támogatja az oszlopos tárolást
problémás a speciális karakterek tárolása
nincs univerzális standardja

How well did you know this?

Not at all

Perfectly

Melyek a JSON előnyei?

legtöbb alkalmazás támogatja
támogatja a hierarchikus struktúrát

How well did you know this?

Not at all

Perfectly

Melyek a JSON hátrányai?

nem bontható fel
sok esetben nem működik megfelelően a serializáció-deserializáció

Mi a SEQ fájlformátum?

sequence files
bináris
kulcs érték pár tárolás
metaadatokat nem tárol
MAPReduce-hoz készült

Melyek a SEQ előnyei?

támogatja a blokk/rekord tömörítést
felbontható
gyorsabb a CSV-nél

Melyek a SEQ hátrányai?

HADOOP specifikus
csak JAVA API képes kezelni

Mi az Avro fájlformátum?

metadatokat is tárol (adattípus séma)
sémát JSON-ban tárolja
bináris
sor-orientált

Melyek az Avro előnyei?

támogatja a séma-evolúciót
írási műveletekhez kiváló
felbontható és tömöríthető

Melyek az Avro hátrányai?

lassú szerializáció-deszerializáció
szükség van hozzá a sémához

Mi az RC fájlformátum?

Record Columnar File
bináris
felbontható
sor csoportokra osztja az adatokat, amin belül pedig oszlopokra
metadatokat nem tárol

Mi az ORC fájlformátum?

- Optimized Record Columnar File - RC továbbfejlesztése - fejlettebb tömörítés - beépített indexelés és aggrelációs információk - HIVE használatával ACID megfelelésű

Mi a Parquet fájlformátum?

- bináris - oszlop-orientált - jó egymásba ágyazott adatokhoz - jó tömöríthetőség - felbontható - támogatja a séma evolúciót - támogatja a partíciózást és a bucketinget - támogatja a predicate/projection push down-t

Mi a partitioning és a bucketing?

Partitioning - horizontális darabolása az adatoknak Bucketing - vertikális darabolása az adatoknak - az adatokat előre meghatározott csoportokba osztja, amelyeket gyakran az adatok egy vagy több mezőjének értékei alapján hoznak létre.

Mi a Projection Push Down?

Ez a technika arra vonatkozik, hogy egy adott adatfeldolgozási művelet (például lekérdezés vagy feldolgozás) során csak azokat az oszlopokat válasszuk ki az adatforrásból, amelyekre szükség van.

Mi a Predicate Push Down?

Ez a technika azt jelenti, hogy a lekérdezés során alkalmazott feltételeket (predikátumokat) már az adatforrásnál alkalmazzák, mielőtt az adatokat átvinnék a feldolgozási műveletre.

Mi a Delta Lake fájlformátum?

- Parquet továbbfejlesztése - ACID tranzakciókat támogatja - támogatja a séma evolúciót - bináris - metaadatokat kezeli - verziókezelést támogatja - csak DataBricks-ben használható

Mi az IceBerg fájlformátum?

- táblázatos formátum - könnyen lehet adatot hozzáadni/eltávolítani/kicserélni - beépített particionálás - verziókezelést támogatja