21. A Big Data adatfeldolgozása (Apache KAFKA és DataBricks) Flashcards

1
Q

b. Ismertesse az Apache Kafka működési modeljét (producer, consumer, topics, brokers, data log, partitions)!

A

Kafka: Skálázható, hibatűrő elosztott streaming platform
Valós idejű adatelérést tesz lehetővé

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

c. Ismertesse a Databricks felépítését és működési elvét (managed Spark clusters, cloud, notebook, languages, dbfs, workspaces).

A

Databricks –> Felhő alapú platform, sparkot használ

Clusters –> Virtuális környezet ahol lehet futtatni a programot
Workspace –> Notebook gyűjteménye
Notebook –> munkafüzet amiben dolgozunk
Használható nyelvek –> Python, Scala, R, SQL
DBFS –> Data Bricks File Systems –> Fájlokat tudjuk ezzel meghívni és alap műveleteket kezelni rajta

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

d. Mik a dataframek főbb jellemzői, leggyakoribb műveletei és tárolási módjai?

A

Dataframe –> Adatok táblázatos formában elrendezése (struktúrált formában)
-Adatokat struktúrált formában tárolódnak –> SQL-el tudjuk lekérdezni
Leggyakoribb műveletek –> adatok kiírása
Tárolási mód: CSV fájlok, txt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly