Apache Spark Flashcards
O que é o Apache Spark?
É um framework multilinguagem, de código aberto (open source), utilizado
para processar grandes conjuntos de dados (Big Data), de forma paralela e distribuída. O Spark permite
executar projetos de engenharia de dados, ciência de dados e aprendizado de máquina em clusters de
computadores ou em máquinas de nó único.
O que faz o RDD (Resilient Distributed Dataset)?
O RDD, sigla para Resilient Distributed Dataset, é uma abstração no Apache Spark,
representando uma coleção imutável de objetos distribuídos, que podem ser processados em paralelo.
Os RDDs são projetados para serem resilientes a falhas, capazes de recriar dados perdidos em caso
de falha, usando seu lineage (linhagem).
Características principais dos RDDs incluem: Imutabilidade, Resiliência, Distribuição, Flexibilidade
O que fazem as transformações?
As transformações são operações que criam um novo conjunto de dados a partir de um
existente. Elas são computadas de forma preguiçosa (lazy), o que significa que Spark não executa a
transformação imediatamente. Em vez disso, ele registra a operação para executá-la posteriormente.
Algumas das transformações mais comuns são:
map(), filter(), flatMap(), union(), distinct()
O que fazem as ações?
As ações são operações que retornam um valor ao programa controlador ou escrevem dados
para um sistema de armazenamento externo. Diferente das transformações, as ações são executadas
imediatamente. Algumas das ações mais comuns são:
collect(), count(), first() e take(), reduce(), saveAsTextFile()