Aula 03 - Big Data Flashcards
1
Q
BIG DATA (Conceito)
A
CONCEITO:
- Big Data é “definido genericamente como a captura, gerenciamento e a análise de dados que vão além dos dados tipicamente estruturados, que podem ser consultados e pesquisados através de bancos de dados relacionais. Frequentemente são dados obtidos de arquivos não estruturados como vídeo digital, imagens, dados de sensores, arquivos de logs e de qualquer tipo de dados não contidos em registros típicos com campos que podem ser pesquisados”.
- Big Data é o termo que descreve o imenso volume de dados – ESTRUTURADOS e NÃO ESTRUTURADOS – que impactam os negócios no dia a dia.
2
Q
Big Data - FONTE de DADOS
A
FONTE de DADOS:
- dados gerados pelas máquinas (redes de sensores, logs);
- dispositivos móveis (vídeo, mensagens, fotografias);
- comunicação máquina a máquina, a “Internet das coisas”;
- dados em bancos de dados relacionais oriundos das transações da organização;
- imagens de documentos, etc.
3
Q
Objetivo do “Big Data”
A
- O objetivo do Big Data é propiciar dados e informações que possam ser analisados visando subsidiar TOMADA de DECISÃO.
- As características mais marcantes do Big Data são:
(i) quantidade, e
(ii) velocidade.
4
Q
Origem dos dados Big Data
A
Big Data= Transações + Interações + Observações
5
Q
Big Data Analytics
A
- Big Data Analytics é o trabalho analítico e inteligente de grandes volumes de dados, estruturados ou não estruturados, que são coletados, armazenados e interpretados por softwares de altíssimo desempenho.
6
Q
As 5 Dimensões (5 V´s) do Big Data -> Volume, Variedade, Velocidade, Veracidade, Valor
A
- VOLUME dos dados que são capturados;
- VARIEDADE das fontes, tipos e formatos dos dados;
- VELOCIDADE na qual os dados são gerados, a velocidade em que é preciso agir com relação a eles ou a taxa em que estão mudando;
- VERACIDADE dos dados, ou seja, a incerteza ou fidelidade dos dados.
- ## VALOR de NEGÓCIOS do insight que pode ser obtido ao analisar os dados;Observações:
- A literatura já destaca os 7 V’s do Big Data: englobando os 5 V’s (Volume, Velocidade, Variedade, Veracidade, Valor), a Visualização e a Variabilidade.
- a IBM cita 7 dimensões que devem ser consideradas ao avaliar a viabilidade de uma solução de Big Data: os 5 V’s (Volume, Velocidade, Variedade, Veracidade, Valor), mais as dimensões PESSOAS e GOVERNANÇA.
7
Q
Camadas Lógicas de uma Solução de Big Data:
A
=> Camada Horizontal
Camadas de “BAIXO” para “CIMA” na figura. São elas:
• Fontes de Big Data,
• Camada de Tratamento e Armazenamento de Dados,
• Camada de Análise, e
• Camada de Consumo.
=> Camada Vertical São elas: • Integração de informações, • Governança de big data, • Gerenciamento de sistemas, e • Qualidade de serviço.
8
Q
NoSQL (Not Only SQL – Não Só SQL)
A
- NoSQL não significa “no SQL” (não ao SQL), mas sim “not only SQL (não só SQL).
- são mais flexíveis, sendo inclusive compatíveis com um grupo de premissas que “compete” com as propriedades ACID4 (sigla para o uso destes termos em inglês: Atomicity, Consistency, Isolation e Durability - Atomicidade, Consistência, Isolamento e Durabilidade) - Os bancos de dados não relacionais (NoSQL) não utilizam o esquema tradicional de tabela de linhas e colunas; em vez disso, eles usam um modelo de armazenamento otimizado para desempenho escalável e modelos de dados sem esquema (Cespe/2018).
- Quando nos referimos a Big Data, apenas um banco de dados do tipo não basta. É necessário também contar com ferramentas (Ex.: Hadoop é a principal referência) que permitam o tratamento correto do volume de dados.
- Hadoop: plataforma open source desenvolvida especialmente para processamento e análise de grandes volumes de dados, sejam eles estruturados ou não estruturados.
- Os bancos NoSQL usam diversos modelos de dados, como: chave/valor simples, colunares, documentos, gráficos e armazenamento de pares chave-valor na memória (Cespe/2018).
9
Q
Visualização e Análise Exploratória de Dados
A
- VISUALIZAÇÃO de DADOS refere-se às tecnologias que dão suporte à visualização e, algumas vezes, à interpretação de dados e informações em vários pontos ao longo da cadeia de processamento de dados.
Ela inclui imagens digitais, sistemas geográficos, interfaces gráficas de usuário, gráficos, realidade virtual, representações dimensionais, vídeos e animações.
10
Q
Big Data x Data Mining
A
- A mineração de dados usa ferramentas como modelos estatísticos, visualização e aprendizado de máquina para encontrar informações ou padrões a partir dos dados.
- Big Data procura aplicar essas ferramentas a dados de alto volume, alta velocidade ou alta variedade - isso é um desafio em bancos de dados e programas de análise mais antigos, por isso, temos a nova tecnologia de big data.