21. A Big Data adatfeldolgozása (Apache KAFKA és DataBricks) Flashcards
b. Ismertesse az Apache Kafka működési modeljét (producer, consumer, topics, brokers, data log, partitions)!
Kafka: Skálázható, hibatűrő elosztott streaming platform
Valós idejű adatelérést tesz lehetővé
c. Ismertesse a Databricks felépítését és működési elvét (managed Spark clusters, cloud, notebook, languages, dbfs, workspaces).
Databricks –> Felhő alapú platform, sparkot használ
Clusters –> Virtuális környezet ahol lehet futtatni a programot
Workspace –> Notebook gyűjteménye
Notebook –> munkafüzet amiben dolgozunk
Használható nyelvek –> Python, Scala, R, SQL
DBFS –> Data Bricks File Systems –> Fájlokat tudjuk ezzel meghívni és alap műveleteket kezelni rajta
d. Mik a dataframek főbb jellemzői, leggyakoribb műveletei és tárolási módjai?
Dataframe –> Adatok táblázatos formában elrendezése (struktúrált formában)
-Adatokat struktúrált formában tárolódnak –> SQL-el tudjuk lekérdezni
Leggyakoribb műveletek –> adatok kiírása
Tárolási mód: CSV fájlok, txt