21. A Big Data adatfeldolgozása (Apache KAFKA és DataBricks) Flashcards

Question 1

Q

b. Ismertesse az Apache Kafka működési modeljét (producer, consumer, topics, brokers, data log, partitions)!

Answer

A

Kafka: Skálázható, hibatűrő elosztott streaming platform
Valós idejű adatelérést tesz lehetővé

Question 2

Q

c. Ismertesse a Databricks felépítését és működési elvét (managed Spark clusters, cloud, notebook, languages, dbfs, workspaces).

Answer

A

Databricks –> Felhő alapú platform, sparkot használ

Clusters –> Virtuális környezet ahol lehet futtatni a programot
Workspace –> Notebook gyűjteménye
Notebook –> munkafüzet amiben dolgozunk
Használható nyelvek –> Python, Scala, R, SQL
DBFS –> Data Bricks File Systems –> Fájlokat tudjuk ezzel meghívni és alap műveleteket kezelni rajta

Question 3

Q

d. Mik a dataframek főbb jellemzői, leggyakoribb műveletei és tárolási módjai?

Answer

A

Dataframe –> Adatok táblázatos formában elrendezése (struktúrált formában)
-Adatokat struktúrált formában tárolódnak –> SQL-el tudjuk lekérdezni
Leggyakoribb műveletek –> adatok kiírása
Tárolási mód: CSV fájlok, txt