03. Fájlformátumok Flashcards

1
Q

Mely két fő csoportba oszthatók a Big Data fájlformátumok?

A
  1. oszlop-orientált
  2. sor-orientált
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Melyek a tipikus sor- és oszlop-orientált fájlformátumok?

A

Sor - JSON, CSV, AVRO
Oszlop - Parquet, ORC

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Melyek az oszlop-orientált adatformátumok előnyei?

A
  1. Hatékonyabb olvasás
  2. Könyebb tömöríthetőség
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Melyek az oszlop-orientált adatformátumok hátrányai?

A
  1. rekord kiolvasása lassabb
  2. erőforrás igényesebb írás
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Melyek a sor-orientált adatformátumok előnyei?

A
  1. rekord kiolvasása gyors
  2. adatok írása hatékonyabb
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Melyek a sor-orientált adatformátumok hátrányai?

A
  1. olvasás lassabb
  2. tömöríthetőség nehezebb
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Milyen típusai vannak a tömörítésnek?

A
  1. fájltömörítés
  2. blokktömörítés
  3. hálózati tömörítés
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Melyik 3 fő tömörítési technikát használják a Big Data világban?

A
  1. Snappy
  2. Gzip
  3. Zstd
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Mik a Snappy jellemzői?

A
  • veszteségmentes
  • nem felbontható
  • 2x-es kompressziós ráta
  • adatbázis tömörítés
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Mik a Gzip jellemzői?

A
  • veszteségmentes
  • nem felbontható
  • 2.7-3x-os kompressziós ráta
  • HTTP tömörítés
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Mik a Zstd jellemzői?

A
  • veszteségmentes
  • felbontható
  • 2.8x-os kompressziós ráta
  • valós idejű tömörítés
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Melyek a főbb Big Data fájlformátumok?

A
  • CSV
  • JSON
  • SEQ
  • Avro
  • RC
  • ORC
  • Parquet
  • Delta Lake
  • IceBerg
  • Arrow
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Melyek a CSV előnyei?

A
  • könnyű olvashatóság
  • könnyű kezelhetőség
  • felbontható
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Melyek a CSV hátrányai?

A
  • nem támogatja az oszlopos tárolást
  • problémás a speciális karakterek tárolása
  • nincs univerzális standardja
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Melyek a JSON előnyei?

A
  • legtöbb alkalmazás támogatja
  • támogatja a hierarchikus struktúrát
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Melyek a JSON hátrányai?

A
  • nem bontható fel
  • sok esetben nem működik megfelelően a serializáció-deserializáció
17
Q

Mi a SEQ fájlformátum?

A
  • sequence files
  • bináris
  • kulcs érték pár tárolás
  • metaadatokat nem tárol
  • MAPReduce-hoz készült
18
Q

Melyek a SEQ előnyei?

A
  • támogatja a blokk/rekord tömörítést
  • felbontható
  • gyorsabb a CSV-nél
19
Q

Melyek a SEQ hátrányai?

A
  • HADOOP specifikus
  • csak JAVA API képes kezelni
20
Q

Mi az Avro fájlformátum?

A
  • metadatokat is tárol (adattípus séma)
  • sémát JSON-ban tárolja
  • bináris
  • sor-orientált
21
Q

Melyek az Avro előnyei?

A
  • támogatja a séma-evolúciót
  • írási műveletekhez kiváló
  • felbontható és tömöríthető
22
Q

Melyek az Avro hátrányai?

A
  • lassú szerializáció-deszerializáció
  • szükség van hozzá a sémához
24
Q

Mi az RC fájlformátum?

A
  • Record Columnar File
  • bináris
  • felbontható
  • sor csoportokra osztja az adatokat, amin belül pedig oszlopokra
  • metadatokat nem tárol
25
Mi az ORC fájlformátum?
- Optimized Record Columnar File - RC továbbfejlesztése - fejlettebb tömörítés - beépített indexelés és aggrelációs információk - HIVE használatával ACID megfelelésű
26
Mi a Parquet fájlformátum?
- bináris - oszlop-orientált - jó egymásba ágyazott adatokhoz - jó tömöríthetőség - felbontható - támogatja a séma evolúciót - támogatja a partíciózást és a bucketinget - támogatja a predicate/projection push down-t
27
Mi a partitioning és a bucketing?
Partitioning - horizontális darabolása az adatoknak Bucketing - vertikális darabolása az adatoknak - az adatokat előre meghatározott csoportokba osztja, amelyeket gyakran az adatok egy vagy több mezőjének értékei alapján hoznak létre.
28
Mi a Projection Push Down?
Ez a technika arra vonatkozik, hogy egy adott adatfeldolgozási művelet (például lekérdezés vagy feldolgozás) során csak azokat az oszlopokat válasszuk ki az adatforrásból, amelyekre szükség van.
29
Mi a Predicate Push Down?
Ez a technika azt jelenti, hogy a lekérdezés során alkalmazott feltételeket (predikátumokat) már az adatforrásnál alkalmazzák, mielőtt az adatokat átvinnék a feldolgozási műveletre.
30
Mi a Delta Lake fájlformátum?
- Parquet továbbfejlesztése - ACID tranzakciókat támogatja - támogatja a séma evolúciót - bináris - metaadatokat kezeli - verziókezelést támogatja - csak DataBricks-ben használható
31
Mi az IceBerg fájlformátum?
- táblázatos formátum - könnyen lehet adatot hozzáadni/eltávolítani/kicserélni - beépített particionálás - verziókezelést támogatja