2.2 Big Data Flashcards
Em Matéria de Tecnologia da Informação, quanto ao Big Data,
Relacione os conceitos de (1) Data Warehouse com o de (2) Data Lake
( ) Dados estruturados, limpos, organizados para análise rápida e eficiente.
( ) Dados brutos, de vários formatos, armazenados para análises mais complexas e flexíveis no futuro.
1 - 2
Em Matéria de Tecnologia da Informação, quanto ao Big Data,
Relacione os tipos de análises com Big Data com suas respectivas definições: (1) Descritiva, (2) Diagnóstica, (3) Preditiva e (4) Prescritiva
( ) tem como objetivo prever comportamentos futuros e tendências com base nos dados conhecidos
( ) foca no presente, visando descrever características dos dados e eventos correntes para subsidiar decisões de efeitos imediatos.
( ) busca os efeitos dos eventos futuros. Visa prever os efeitos futuros dos eventos.
( ) busca entender as relações de causa e efeito entre eventos
3 - 1 - 4 - 2
Em Matéria de Tecnologia da Informação, quanto ao Big Data,
O Big Data se aplica para dados ____ (estruturados / não estruturados)
Estruturados E não estruturados
Em Matéria de Tecnologia da Informação, quanto ao Big Data,
Relacione os cinco V’s do Big Data com suas respectivas definições: (1) Volume, (2) Velocidade, (3) Variedade, (4) Veracidade e (5) Valor
( ) Proveniênica e confiabilidade da fonte de dados, seu contexto e a sua utilidade para a análise com base nela
( ) traz benefícios significativos que compensam o investimento, a informação é poder, é patrimônio
( ) rapidez com que os dados são produzidos e tratados para atender à demanda
( ) análise de grande volume de dados, guardando-os em diferentes localidades e juntando-os através de software
( ) lidar com diferentes formatos de informação, como arquivos de texto, e-mail, vídeo, áudio, dados de ações etc.
4 - 5 - 2 - 1 - 3
Lembrando que os V’s 4 e 5 vieram apenas posteriormente!!
Em Matéria de Tecnologia da Informação, quanto ao Big Data,
A arquitetura de Big Data pode se dividir em (1) Lambda e em (2) Kappa, que nomeiam as características de seus funcionamentos. Relacione tais conceitos com as definições abaixo
( ) aborda o problema da baixa latência criando dois caminhos para o fluxo de dados. Todos os dados que entram no sistema passam por dois caminhos: a camada de lote (caminho frio), que armazena os dados de entrada em sua forma bruta e executa o processamento os dados em lote, e a camada de velocidade (hot path) que analisa os dados em tempo real. Essa camada é projetada para ter baixa latência, em detrimento da precisão.
( ) posterior à outra, foi proposta para ser uma alternativa para mitigar os problemas da baixa latência. Tem os mesmos objetivos, mas com uma distinção importante: todos os dados fluem por um único caminho, usando um sistema de processamento de fluxo de dados. Semelhante à camada de velocidade, todo o processamento de eventos é realizado através de um fluxo único de entrada
1 - 2
Em Matéria de Tecnologia da Informação, quanto ao Big Data,
Para o processamento de grandes massas de dados, no contexto de Big Data, é muito utilizada uma plataforma de software em Java, de computação distribuída, voltada para clusters, inspirada no MapReduce e no GoogleFS. Esta plataforma é o(a) ____
Hadoop Distributed Filesystem (HDFS), criado pela empresa Apache e mantido por uma comunidade de profissionais e empresas por ser open source
Há uma máquina mestre e várias máquinas escravos que trabalham conforme as ordens.
Em Matéria de Tecnologia da Informação, quanto ao Big Data,
O Hadoop (HDFS) é o sistema mais comum para aplicações em Big Dat e é composto por 5 componentes: (1) NameNode, (2) DataNode, (3) SecondaryNameNode, (4) JobTracker e (5) TaskTracker.
Relacione-os com as definições abaixo
( ) Possui uma função de gerenciamento, porém o controle é realizado sobre o plano de execução das tarefas a serem processadas. Um dos objetivos do monitoramento é, em caso de falha, identificar e reiniciar uma tarefa no mesmo nó ou em nó diferente.
( ) Executa uma tarefa Map ou uma tarefa Reduce designada a ele.
( ) Realizam o armazenamento dos dados. Pode armazenar múltiplos blocos, inclusive de diferentes arquivos. Além de armazenar, se reportam constantemente aos NameNode.
( ) Gerencia os arquivos armazenados. Integra o sistema HDFS e fica localizado no nó mestre da aplicação. Mapeia a localização, realiza a divisão dos arquivos em blocos, encaminha os blocos aos nós escravos, obtém os dados dos arquivos e controla a localização de suas réplicas.
( ) Utilizado para auxiliar o NameNode a manter seu serviço e ser uma alternativa de recuperação no caso de uma falha. Sua única função é realizar pontos de checagem (checkpoint) do NameNode em intervalos predefinidos, garantindo a recuperação e atenuando o tempo de reinicialização.
4 - 5 - 2 - 1 - 3
Em Matéria de Tecnologia da Informação, quanto ao Big Data,
O Hadoop foi construído sob um conceito de write ____ (once / many-times) e read ____ (once / many-times).
Write-once
Read many-times
Em Matéria de Tecnologia da Informação, quanto ao Big Data,
____ é a atividade de extrair dados de sites e transportá-los para um formato mais simples e maleável para que possam ser analisados e cruzados com mais facilidade. Muitas vezes a informação necessária para reforçar uma história está disponível, mas em sites de navegabilidade ruim ou em bancos de dados difíceis de manipular.
Scraping
Em Matéria de Tecnologia da Informação, quanto ao Big Data,
Qual a diferença entre os frameworks Apache Spark e Apache Hadoop?
Hadoop: Usa MapReduce e é mais focado em processamento em lote baseado em discos, sendo mais lento para operações iterativas ou interativas.
Spark: Usa processamento em memória, é muito mais rápido para tarefas iterativas e suporta processamento em tempo real, além de ser mais fácil de usar para desenvolvedores e cientistas de dados.
Em Matéria de Tecnologia da Informação, quanto ao Big Data,
O que é o MapReduce?
MapReduce funciona dividindo uma grande tarefa de processamento de dados em pequenas partes que podem ser processadas ao mesmo tempo, por múltiplas máquinas independentes, e depois junta tudo no final para gerar o resultado. Ele é muito usado em sistemas de grande escala, como o Hadoop, para processar grandes volumes de dados rapidamente.
É a combinação de duas etapas
1) Map (Mapear): O trabalho é dividido em pequenas partes. Cada parte é processada em paralelo para transformar os dados de entrada em pares de chave-valor. Basicamente, é como dividir uma grande tarefa em várias pequenas tarefas para agilizar o processamento.
2) Reduce (Reduzir): Depois que todas as pequenas partes são processadas, elas são combinadas e organizadas para gerar o resultado final. O Reduce vai pegar as chaves idênticas geradas pelo Map e somar os valores.
Ou seja, o Map quebra em várias partes pequenas e realiza o processamento e o Reduce junto tudo novamente e entrega o resultado final.