Big Data Flashcards
PARA FIXAR
Sabe aquele vídeo insuportável com um anúncio de visualizar um vídeo no Youtube? Ou quando você está navegando pelo Facebook e aparece uma propaganda nos eu feed? Esses anúncios são ótimos exemplos de como é utilizado o Big Data. Por diversas vezes, ele é escolhido especificamente para você com base nos sites que você frequenta, sua idade aproximada, seu sexo, onde você mora, além de um monte de outras variáveis.
Em que época surgiu o termo Big Data?
Na década de 1990.
Quem é o autor do termo Big Data?
John Mashey.
PARA FIXAR
Seu celular registra a sua localização, registra os aplicativos que você usa e registra quanto tempo você os usa, então todos os aplicativos que você usa coletam dados sobre você.
PARA FIXAR
Exemplo de registro de Big Data
Notificação do Google informando sobre o tempo até o meu trabalho. Você acorda, toma banho, escova os dentes, desce para a garagem e assim que eu entra no carro… o Google me envia uma notificação informando você chegaria no trabalho em 15 minutos!
O Google tem todos os dados devido ao seu Waze, por exemplo, habilitação de localização do celular…
PARA FIXAR
Uma das revelações mais interessantes do Big Data no Netflix trata do poster. Sabe aquelas imagens que aparecem na hora que você vai escolher o filme? Pois é, muitas pessoas escolhem um filme simplesmente baseado nessa imagem. Uma vez que o título e a imagem são a primeira exposição ao conteúdo, escolher as imagens mais atrativas para pessoas específicas pode afetar na sua decisão de assistir um filme ou não.
Observe a imagem: há duas imagens diferentes para o mesmo filme! No entanto, se você gosta mais de assistir filmes românticos, ele mostrará uma imagem do filme com o Matt Damon beijando uma mulher; se você gosta mais de assistir filmes de comédia, ele mostrará uma imagem do mesmo filme, porém com Robin Williams.
No que consiste o Big Data?
Há várias definições, mas em geral, big data não se refere apenas aos dados, mas também às soluções tecnológicas criadas para lidar com dados em volume, variedade e velocidade significativos, com uma infinidade de informações que não são estruturadas que, quando usadas com inteligência, se tornam uma arma poderosa para empresas tomarem decisões cada vez melhores.
CERTO OU ERRADO
As soluções tecnológicas que trabalham com Big Data permitem analisar um enorme volume de dados de forma rápida e ainda oferecem total controle ao gestor das informações.
CERTO!
PARA FIXAR
Uma das 9 definições de Big Data:
Oxford English Dictionary:
Big Data é um dado de tamanho grande, tipicamente ao nível que sua manipulação e gerenciamento apresenta desafios significativos a logística.
PARA FIXAR
Uma das 9 definições de Big Data:
Dumbill e Edd:
Big Data é o dado que excede a capacidade de processamento convencional dos sistemas de bancos de dados.
PARA FIXAR
Uma das 9 definições de Big Data:
Mayer-Schonberger e Cukier’s
Big Data é a habilidade da sociedade de aproveitar a informação por novas maneiras para produzir introspecção úteis ou bens e serviços de valor significante.
PARA FIXAR
Uma das 9 definições de Big Data:
Internacional Data Corporation:
Big Data é uma nova geração de tecnologias e arquitetura, projetadas economicamente para extrair valor de volume muito grande e vasto de dados, permitindo alta velocidade de captura, descoberta e análise.
PARA FIXAR
Uma das 9 definições de Big Data:
Kim, Trimi e Ji-Hyong
Big Data é o termo geral para a enorme quantidade de dados digitais coletados a partir de todos os tipos de fonte.
PARA FIXAR
Uma das 9 definições de Big Data:
Mahrt e Scharkow:
Big Data denota um maior conjunto de dados ao longo do tempo, conjunto de dados estes que são grandes demais para serem manipulados por infraestruturas de armazenamento e processamento regulares.
PARA FIXAR
Uma das 9 definições de Big Data:
Davenport e Kwon:
Big Data são dados demasiadamente volumosos ou muito desestruturados para serem gerenciados e analisados através de meios tradicionais.
PARA FIXAR
Uma das 9 definições de Big Data:
Di Martino:
Big Data se refere ao conjunto de dados cujo tamanho está além da habilidade de ferramentas típicas de banco de dados em capturar, gerenciar e analisar.
PARA FIXAR
Uma das 9 definições de Big Data:
Rajesh:
Big Data são conjuntos de dados que são tão grandes que se tornam difíceis de trabalhar com o uso de ferramentas atualmente disponíveis.
Quais as fontes de dados do Big Data?
- textos e fotos em rede sociais
- imagens
- vídeos
- jogadas específicas no esporte
- tratamentos na medicina.
- etc.
Quais os desafios do big data?
- análise
- captura
- curadoria de dados
- pesquisa
- compartilhamento
- armazenamento
- transferência
- visualização
- informações sobre privacidade.
PARA FIXAR
O big data, por vezes, se refere ao uso de análise preditiva e outros métodos avançados para extrair valor de dados.
No que consiste a análise preditiva?
Processo de usar dados para prever resultados futuros.
PARA FIXAR
O prof. do Estratégia define big data como a captura, gerenciamento e análise de um grande volume de dados que podem ser estruturados ou não estruturados e não podem ser consultados e pesquisados através de banco de dados relacionais.
CERTO OU ERRADO:
Big data é a captura, gerenciamento e análise de um grande volume de dados que podem ser estruturados ou não estruturados e que só podem ser consultados e pesquisados através de banco de dados relacionais.
ERRADO! Não podem ser consultados por banco de dados relacionais.
Big data, frequentemente, são dados obtidos de arquivos estruturados ou não estruturados?
Arquivos não estruturados.
Big data, frequentemente, são dados obtidos de arquivos não estruturados.
Quais os tipos de arquivos não estruturados?
Vídeo digital, imagens, dados de sensores, arquivos de logs e de qualquer tipo de dados não contidos em registros típicos com campos que podem ser pesquisados.
O que são dados estruturados?
Dados que podem ser armazenados, acessados e processados em formato fixo e padronizado de acordo com alguma regra específica.
Como é feita a organização dos dados estruturados?
Geralmente feita por colunas e linhas (semelhante a planilhas de Excel), mas pode variar de acordo com a fonte de dados.
Cite exemplos de dados estruturados.
Planilhas Eletrônicas, Bancos de Dados Relacionais e CSV.
O que são dados semi-estruturados?
Dados estruturados que não estão de acordo com a estrutura formal dos modelos de dados como em tabelas, mas que possuem marcadores para separar elementos semânticos e impor hierarquia de registros e campos dentro dos dados.
Cite exemplos de dados semi-estruturados.
Dados de E-mail, Arquivos XML, Arquivos JSON e Banco de Dados NoSQL.
O que são dados não estruturados?
Dados que apresentam formato ou estrutura desconhecidos, em que não se sabe extrair de forma simples os valores desses dados em forma bruta.
Cite exemplos de dados não estruturados.
Documentos, Imagens, Vídeos, Arquivos de Texto, Posts em Redes Sociais.
CERTO OU ERRADO:
As soluções de big data focalizam dados que já existem, descartam dados não estruturados e disponibilizam os dados estruturados.
ERRADO! Focalizam tanto nos dados estruturados quanto no não estruturados.
CERTO OU ERRADO:
No big data, o tamanho das informações importa.
CERTO! De acordo com Mayer-Schonberger, quanto mais dados, melhor.
PARA FIXAR
O Google mostrou ser capaz de identificar o surgimento de um surto de gripe quase tão bem quanto os dados oficiais com base nos pacientes que visitam o médico – e pôde gerar uma resposta quase em tempo real, muito mais rápido que as fontes oficiais.
Onde os dados do big data podem ser armazenados?
Data Warehouse ou Data Lake (Lago de dados).
No que consiste o Data Lake?
Um grande repositório capaz de armazenar dados estruturados, semi-estruturados e não-estruturados, assim como um método para organizar grandes volumes de dados de diversos formatos e diversas fontes.
CERTO OU ERRADO
No data lake os dados geralmente são tratados antes de serem armazenados.
ERRADO! No Data Warehouse que eles são limpos, combinados, organizados, etc antes de serem armazenados.
No data lake os dados, geralmente, os dados são armazenados de que maneira?
Da maneira que foram capturados, ou seja, brutos, sem nenhum tratamento.
Quais tipos de dados o Data Warehouse pode armazenar?
Todos os tipos de dados, mas o foco é nos dados estruturados.
Quais tipos de dados o data lake pode armazenar?
Todos os tipos de dados: Dados estruturados, semi-estruturados e não-estruturados.
O Data Warehouse é ideal para que tipo de usuário?
Para usuários operacionais. Como os dados já estão tratados, as ferramentas analíticas são mais fáceis de usar.
O Data Lake é ideal para que tipo de usuário?
Para os cientistas de dados, visto que as ferramentas analíticas são mais difíceis de usar.
As ferramentas analíticas do Data Warehouse e Data Lake são fáceis ou difíceis de usar?
- As do data warehouse são fáceis, por isso pode de ser usada por usuários operacionais.
- as do data lake são difíceis, por isso tem que ser usada por cientista de dados.
Qual o custo e o consumo de tempo do armazenamento de dados no Data Warehouse?
Custam geralmente mais caro e consome mais tempo.
Qual o custo e o consumo de tempo do armazenamento de dados no Data Lake?
Custam geralmente mais barato e consome menos tempo.
No Data Warehouse, um esquema é definido antes ou depois dos dados serem armazenados?
Antes dos dados serem armazenados.
No Data Lake, um esquema é definido antes ou depois dos dados serem armazenados?
Depois dos dados serem armazenados.
Qual o volume de dados que o Data Warehouse pode armazenar?
Um grande volume de dados.
Qual o volume de dados que o Data Lake pode armazenar?
Um gigantesco volume de dados, maior que o Data Warehouse.
CERTO OU ERRADO
O Data Lake é projetado para armazenar dados de diversas fontes e formatos, mas deve haver definição de um esquema de dados para inserir novos itens.
ERRADO! O Data Lake realmente é projetado para armazenar dados de diversas fontes e dados, mas não é necessário um esquema de dados para inserir novos itens.
CERTO OU ERRADO:
O Data Lake pode ser considerado um repositório de dados relacionados, sendo, portanto, um armazém de dados orientado por assunto.
ERRADO! Os dados não precisam estar relacionados e, portanto, não é orientado por assunto.
CERTO OU ERRADO:
O Data Lake pode ser considerado um conjunto de bancos de dados relacionais e com relacionamentos entre tabelas de diferentes esquemas de bancos de dados.
ERRADO! Não é um conjunto de dados relacionais e não precisa haver relacionamentos entre tabelas de diferentes esquemas – os dados são de diversos formatos e de diversas fontes
CERTO OU ERRADO:
Não há necessidade da definição de um esquema de dados para inserir novos itens no Data Lake.
CERTO!
CERTO OU ERRADO:
Data Lake é o resultado de sucessivas operações de mineração de dados, sendo um ambiente no qual é possível ter relatórios e dashboards de maneira amigável para os analistas de negócio.
ERRADO! Não é o resultado de operações de mineração de dados – são dados brutos sem tratamento e da maneira que foram capturados.
O que é um infraestrutura de dados?
O conjunto de hardware, software e outras tecnologias capazes de suportar serviços de TI.
Cite exemplos de serviços de TI.
Servidor, Firewall, Rede, gerenciamento de segurança de dados…
CERTO OU ERRADO:
Hoje em dia, se pode utilizar serviços de TI fornecidos pela computação em nuvem ou ter uma infraestrutura própria.
CERTO!
De forma geral, por que as empresas utilizam o Big Data?
Para se tornarem mais competitivas.