Big Data Flashcards
O que é o Big Data?
É um enorme repositório de dados onde se encontram todas as ferramentas e informações disponíveis a acesso.
Mais usado pra descobrir interesses Google Facebook
Trata-se de uma infinidade de informações não estruturadas que, quando usadas com inteligência, se tornam uma arma poderosa para empresas tomarem decisões cada vez melhores.
As soluções tecnológicas que trabalham com esse conceito permitem analisar um enorme volume de dados de forma rápida e ainda oferecem total controle ao gestor das informações. E as fontes de dados são as mais diversas possíveis: de textos e fotos em rede sociais, passando por imagens e vídeos, até jogadas específicas no esporte e até tratamentos na medicina.
Quais são os 3 V’s do Big Data?
Variabilidade - Informações em vários formatos diferentes de inúmeras formas
Velocidade - Rapiso acesso (pesquisa google)
Volume - É capaz de guardar uma infinidade de informações
Qual a diferença da arquitetura Lambda e a Kappa?
Lambda é dividida em dois caminhos, lote e velocidade, faz uma análise dos dados em tempo real, e executa o processamento em lotes.
Kappa - É uma alternativa para a Lambda fazendo tudo que ela faz só que com apenas um caminho, é um sistema de processamento fluxo menos complexo.
O que é o Apache Spark e o Hadoop?
• o Hadoop é um framework para processamento de dados em enorme escala. O Hadoop tem código aberto. A estrutura de processamento Map Reduce pode ser implementada pelo Hadoop.
O Apache Spark e o Hadoop são duas ferramentas diferentes que ajudam as pessoas a lidar com muitos dados. O Hadoop é como uma caixa mágica onde podemos colocar muitos dados e deixar que ele cuide deles.
O Apache Spark é como um ajudante que nos ajuda a fazer coisas com esses dados.O Apache Spark precisa do Hadoop para funcionar, porque é como se ele tivesse que pedir a chave da caixa mágica (o Hadoop) para poder abrir e usar os dados. Além disso, o Apache Spark pode ser usado dentro da caixa mágica do Hadoop para ser ainda mais útil.
É como se o Apache Spark fosse uma bicicleta e o Hadoop fosse um garagem onde guardamos a bicicleta. A bicicleta precisa da garagem para ser guardada e protegida, e a garagem é útil porque podemos usar a bicicleta lá dentro e sair para passear com ela.
O que é Apache Cassandra?
Apache Cassandra é um sistema de gerenciamento de banco de dados distribuído desenvolvido para lidar com grandes quantidades de dados em vários datacenters e na nuvem. É altamente escalonável, oferecendo alta disponibilidade. Escrito em Java, é um banco de dados NoSQL baseado em chave-valor. Cassandra foi originalmente desenvolvido no Facebook para seu recurso de pesquisa na caixa de entrada. Cada chave no Cassandra corresponde a um valor que é um objeto. Cada chave possui valores como colunas e as colunas são agrupadas em conjuntos chamados famílias de colunas. Assim, cada chave identifica uma linha de um número variável de elementos.
O Big Data se utiliza com qual linguagem?
Ele é ñSQL.