03. Fájlformátumok Flashcards

1
Q

Mely két fő csoportba oszthatók a Big Data fájlformátumok?

A
  1. oszlop-orientált
  2. sor-orientált
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Melyek a tipikus sor- és oszlop-orientált fájlformátumok?

A

Sor - JSON, CSV, AVRO
Oszlop - Parquet, ORC

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Melyek az oszlop-orientált adatformátumok előnyei?

A
  1. Hatékonyabb olvasás
  2. Könyebb tömöríthetőség
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Melyek az oszlop-orientált adatformátumok hátrányai?

A
  1. rekord kiolvasása lassabb
  2. erőforrás igényesebb írás
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Melyek a sor-orientált adatformátumok előnyei?

A
  1. rekord kiolvasása gyors
  2. adatok írása hatékonyabb
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Melyek a sor-orientált adatformátumok hátrányai?

A
  1. olvasás lassabb
  2. tömöríthetőség nehezebb
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Milyen típusai vannak a tömörítésnek?

A
  1. fájltömörítés
  2. blokktömörítés
  3. hálózati tömörítés
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Melyik 3 fő tömörítési technikát használják a Big Data világban?

A
  1. Snappy
  2. Gzip
  3. Zstd
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Mik a Snappy jellemzői?

A
  • veszteségmentes
  • nem felbontható
  • 2x-es kompressziós ráta
  • adatbázis tömörítés
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Mik a Gzip jellemzői?

A
  • veszteségmentes
  • nem felbontható
  • 2.7-3x-os kompressziós ráta
  • HTTP tömörítés
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Mik a Zstd jellemzői?

A
  • veszteségmentes
  • felbontható
  • 2.8x-os kompressziós ráta
  • valós idejű tömörítés
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Melyek a főbb Big Data fájlformátumok?

A
  • CSV
  • JSON
  • SEQ
  • Avro
  • RC
  • ORC
  • Parquet
  • Delta Lake
  • IceBerg
  • Arrow
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Melyek a CSV előnyei?

A
  • könnyű olvashatóság
  • könnyű kezelhetőség
  • felbontható
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Melyek a CSV hátrányai?

A
  • nem támogatja az oszlopos tárolást
  • problémás a speciális karakterek tárolása
  • nincs univerzális standardja
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Melyek a JSON előnyei?

A
  • legtöbb alkalmazás támogatja
  • támogatja a hierarchikus struktúrát
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Melyek a JSON hátrányai?

A
  • nem bontható fel
  • sok esetben nem működik megfelelően a serializáció-deserializáció
17
Q

Mi a SEQ fájlformátum?

A
  • sequence files
  • bináris
  • kulcs érték pár tárolás
  • metaadatokat nem tárol
  • MAPReduce-hoz készült
18
Q

Melyek a SEQ előnyei?

A
  • támogatja a blokk/rekord tömörítést
  • felbontható
  • gyorsabb a CSV-nél
19
Q

Melyek a SEQ hátrányai?

A
  • HADOOP specifikus
  • csak JAVA API képes kezelni
20
Q

Mi az Avro fájlformátum?

A
  • metadatokat is tárol (adattípus séma)
  • sémát JSON-ban tárolja
  • bináris
  • sor-orientált
21
Q

Melyek az Avro előnyei?

A
  • támogatja a séma-evolúciót
  • írási műveletekhez kiváló
  • felbontható és tömöríthető
22
Q

Melyek az Avro hátrányai?

A
  • lassú szerializáció-deszerializáció
  • szükség van hozzá a sémához
23
Q
A
24
Q

Mi az RC fájlformátum?

A
  • Record Columnar File
  • bináris
  • felbontható
  • sor csoportokra osztja az adatokat, amin belül pedig oszlopokra
  • metadatokat nem tárol
25
Q

Mi az ORC fájlformátum?

A
  • Optimized Record Columnar File
  • RC továbbfejlesztése
  • fejlettebb tömörítés
  • beépített indexelés és aggrelációs információk
  • HIVE használatával ACID megfelelésű
26
Q

Mi a Parquet fájlformátum?

A
  • bináris
  • oszlop-orientált
  • jó egymásba ágyazott adatokhoz
  • jó tömöríthetőség
  • felbontható
  • támogatja a séma evolúciót
  • támogatja a partíciózást és a bucketinget
  • támogatja a predicate/projection push down-t
27
Q

Mi a partitioning és a bucketing?

A

Partitioning - horizontális darabolása az adatoknak
Bucketing - vertikális darabolása az adatoknak - az adatokat előre meghatározott csoportokba osztja, amelyeket gyakran az adatok egy vagy több mezőjének értékei alapján hoznak létre.

28
Q

Mi a Projection Push Down?

A

Ez a technika arra vonatkozik, hogy egy adott adatfeldolgozási művelet (például lekérdezés vagy feldolgozás) során csak azokat az oszlopokat válasszuk ki az adatforrásból, amelyekre szükség van.

29
Q

Mi a Predicate Push Down?

A

Ez a technika azt jelenti, hogy a lekérdezés során alkalmazott feltételeket (predikátumokat) már az adatforrásnál alkalmazzák, mielőtt az adatokat átvinnék a feldolgozási műveletre.

30
Q

Mi a Delta Lake fájlformátum?

A
  • Parquet továbbfejlesztése
  • ACID tranzakciókat támogatja
  • támogatja a séma evolúciót
  • bináris
  • metaadatokat kezeli
  • verziókezelést támogatja
  • csak DataBricks-ben használható
31
Q

Mi az IceBerg fájlformátum?

A
  • táblázatos formátum
  • könnyen lehet adatot hozzáadni/eltávolítani/kicserélni
  • beépített particionálás
  • verziókezelést támogatja