2.2 Big Data Flashcards

1
Q

Em Matéria de Tecnologia da Informação, quanto ao Big Data,

Relacione os conceitos de (1) Data Warehouse com o de (2) Data Lake

( ) Dados estruturados, limpos, organizados para análise rápida e eficiente.

( ) Dados brutos, de vários formatos, armazenados para análises mais complexas e flexíveis no futuro.

A

1 - 2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Em Matéria de Tecnologia da Informação, quanto ao Big Data,

Relacione os tipos de análises com Big Data com suas respectivas definições: (1) Descritiva, (2) Diagnóstica, (3) Preditiva e (4) Prescritiva

( ) tem como objetivo prever comportamentos futuros e tendências com base nos dados conhecidos

( ) foca no presente, visando descrever características dos dados e eventos correntes para subsidiar decisões de efeitos imediatos.

( ) busca os efeitos dos eventos futuros. Visa prever os efeitos futuros dos eventos.

( ) busca entender as relações de causa e efeito entre eventos

A

3 - 1 - 4 - 2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Em Matéria de Tecnologia da Informação, quanto ao Big Data,

O Big Data se aplica para dados ____ (estruturados / não estruturados)

A

Estruturados E não estruturados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Em Matéria de Tecnologia da Informação, quanto ao Big Data,

Relacione os cinco V’s do Big Data com suas respectivas definições: (1) Volume, (2) Velocidade, (3) Variedade, (4) Veracidade e (5) Valor

( ) Proveniênica e confiabilidade da fonte de dados, seu contexto e a sua utilidade para a análise com base nela

( ) traz benefícios significativos que compensam o investimento, a informação é poder, é patrimônio

( ) rapidez com que os dados são produzidos e tratados para atender à demanda

( ) análise de grande volume de dados, guardando-os em diferentes localidades e juntando-os através de software

( ) lidar com diferentes formatos de informação, como arquivos de texto, e-mail, vídeo, áudio, dados de ações etc.

A

4 - 5 - 2 - 1 - 3

Lembrando que os V’s 4 e 5 vieram apenas posteriormente!!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Em Matéria de Tecnologia da Informação, quanto ao Big Data,

A arquitetura de Big Data pode se dividir em (1) Lambda e em (2) Kappa, que nomeiam as características de seus funcionamentos. Relacione tais conceitos com as definições abaixo

( ) aborda o problema da baixa latência criando dois caminhos para o fluxo de dados. Todos os dados que entram no sistema passam por dois caminhos: a camada de lote (caminho frio), que armazena os dados de entrada em sua forma bruta e executa o processamento os dados em lote, e a camada de velocidade (hot path) que analisa os dados em tempo real. Essa camada é projetada para ter baixa latência, em detrimento da precisão.

( ) posterior à outra, foi proposta para ser uma alternativa para mitigar os problemas da baixa latência. Tem os mesmos objetivos, mas com uma distinção importante: todos os dados fluem por um único caminho, usando um sistema de processamento de fluxo de dados. Semelhante à camada de velocidade, todo o processamento de eventos é realizado através de um fluxo único de entrada

A

1 - 2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Em Matéria de Tecnologia da Informação, quanto ao Big Data,

Para o processamento de grandes massas de dados, no contexto de Big Data, é muito utilizada uma plataforma de software em Java, de computação distribuída, voltada para clusters, inspirada no MapReduce e no GoogleFS. Esta plataforma é o(a) ____

A

Hadoop Distributed Filesystem (HDFS), criado pela empresa Apache e mantido por uma comunidade de profissionais e empresas por ser open source

Há uma máquina mestre e várias máquinas escravos que trabalham conforme as ordens.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Em Matéria de Tecnologia da Informação, quanto ao Big Data,

O Hadoop (HDFS) é o sistema mais comum para aplicações em Big Dat e é composto por 5 componentes: (1) NameNode, (2) DataNode, (3) SecondaryNameNode, (4) JobTracker e (5) TaskTracker.

Relacione-os com as definições abaixo

( ) Possui uma função de gerenciamento, porém o controle é realizado sobre o plano de execução das tarefas a serem processadas. Um dos objetivos do monitoramento é, em caso de falha, identificar e reiniciar uma tarefa no mesmo nó ou em nó diferente.

( ) Executa uma tarefa Map ou uma tarefa Reduce designada a ele.

( ) Realizam o armazenamento dos dados. Pode armazenar múltiplos blocos, inclusive de diferentes arquivos. Além de armazenar, se reportam constantemente aos NameNode.

( ) Gerencia os arquivos armazenados. Integra o sistema HDFS e fica localizado no nó mestre da aplicação. Mapeia a localização, realiza a divisão dos arquivos em blocos, encaminha os blocos aos nós escravos, obtém os dados dos arquivos e controla a localização de suas réplicas.

( ) Utilizado para auxiliar o NameNode a manter seu serviço e ser uma alternativa de recuperação no caso de uma falha. Sua única função é realizar pontos de checagem (checkpoint) do NameNode em intervalos predefinidos, garantindo a recuperação e atenuando o tempo de reinicialização.

A

4 - 5 - 2 - 1 - 3

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Em Matéria de Tecnologia da Informação, quanto ao Big Data,

O Hadoop foi construído sob um conceito de write ____ (once / many-times) e read ____ (once / many-times).

A

Write-once

Read many-times

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Em Matéria de Tecnologia da Informação, quanto ao Big Data,

____ é a atividade de extrair dados de sites e transportá-los para um formato mais simples e maleável para que possam ser analisados e cruzados com mais facilidade. Muitas vezes a informação necessária para reforçar uma história está disponível, mas em sites de navegabilidade ruim ou em bancos de dados difíceis de manipular.

A

Scraping

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Em Matéria de Tecnologia da Informação, quanto ao Big Data,

Qual a diferença entre os frameworks Apache Spark e Apache Hadoop?

A

Hadoop: Usa MapReduce e é mais focado em processamento em lote baseado em discos, sendo mais lento para operações iterativas ou interativas.

Spark: Usa processamento em memória, é muito mais rápido para tarefas iterativas e suporta processamento em tempo real, além de ser mais fácil de usar para desenvolvedores e cientistas de dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Em Matéria de Tecnologia da Informação, quanto ao Big Data,

O que é o MapReduce?

A

MapReduce funciona dividindo uma grande tarefa de processamento de dados em pequenas partes que podem ser processadas ao mesmo tempo, por múltiplas máquinas independentes, e depois junta tudo no final para gerar o resultado. Ele é muito usado em sistemas de grande escala, como o Hadoop, para processar grandes volumes de dados rapidamente.

É a combinação de duas etapas
1) Map (Mapear): O trabalho é dividido em pequenas partes. Cada parte é processada em paralelo para transformar os dados de entrada em pares de chave-valor. Basicamente, é como dividir uma grande tarefa em várias pequenas tarefas para agilizar o processamento.

2) Reduce (Reduzir): Depois que todas as pequenas partes são processadas, elas são combinadas e organizadas para gerar o resultado final. O Reduce vai pegar as chaves idênticas geradas pelo Map e somar os valores.

Ou seja, o Map quebra em várias partes pequenas e realiza o processamento e o Reduce junto tudo novamente e entrega o resultado final.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly