Big Data Flashcards
PARA FIXAR
Sabe aquele vídeo insuportável com um anúncio de visualizar um vídeo no Youtube? Ou quando você está navegando pelo Facebook e aparece uma propaganda nos eu feed? Esses anúncios são ótimos exemplos de como é utilizado o Big Data. Por diversas vezes, ele é escolhido especificamente para você com base nos sites que você frequenta, sua idade aproximada, seu sexo, onde você mora, além de um monte de outras variáveis.
O termo Big Data na forma como o utilizamos hoje surgiu na década de:
1990.
O autor do termo Big Data é:
John Mashey.
PARA FIXAR
Seu telefone registra a sua localização, registra os aplicativos que você usa e registra quanto tempo você os usa, então todos os aplicativos que você usa coletam dados sobre você.
PARA FIXAR
Exemplo de registro de Big Data
Notificação do Google informando sobre o tempo até o meu trabalho. Você acorda, toma banho, escova os dentes, desce para a garagem e assim que eu entra no carro… o Google me envia uma notificação informando você chegaria no trabalho em 15 minutos!
O Google tem todos os dados devido ao seu Waze, por exemplo, habilitação de localização do celular…
PARA FIXAR
Uma das revelações mais interessantes do Big Data no Netflix trata do poster. Sabe aquelas imagens que aparecem na hora que você vai escolher o filme? Pois é, muitas pessoas escolhem um filme simplesmente baseado nessa imagem. Uma vez que o título e a imagem são a primeira exposição ao conteúdo, escolher as imagens mais atrativas para pessoas específicas pode afetar na sua decisão de assistir um filme ou não.
Observe a imagem: há duas imagens diferentes para o mesmo filme! No entanto, se você gosta mais de assistir filmes românticos, ele mostrará uma imagem do filme com o Matt Damon beijando uma mulher; se você gosta mais de assistir filmes de comédia, ele mostrará uma imagem do mesmo filme, porém com Robin Williams.
Uma das 9 definições de Big Data:
Oxford English Dictionary:
Big Data é um dado de tamanho ______, tipicamente ao nível que sua manipulação e gerenciamento apresenta desafios significativos a _________.
Uma das 9 definições de Big Data:
Oxford English Dictionary:
Big Data é um dado de tamanho grande, tipicamente ao nível que sua manipulação e gerenciamento apresenta desafios significativos a logística.
Uma das 9 definições de Big Data:
Dumbill e Edd:
Big Data é o dado que ______ a capacidade de ______________ ____________ dos sistemas de bancos de dados.
Uma das 9 definições de Big Data:
Dumbill e Edd:
Big Data é o dado que excede a capacidade de processamento convencional dos sistemas de bancos de dados.
Uma das 9 definições de Big Data:
Mayer-Schonberger e Cukier’s:
Big Data é a habilidade da sociedade de aproveitar a informação por novas maneiras para produzir ____________ _____ ou ____ e ________ de valor ____________.
Uma das 9 definições de Big Data:
Mayer-Schonberger e Cukier’s
Big Data é a habilidade da sociedade de aproveitar a informação por novas maneiras para produzir introspecção úteis ou bens e serviços de valor significante.
Uma das 9 definições de Big Data:
Internacional Data Corporation:
Big Data é uma nova geração de ____________ e ____________, projetadas economicamente para extrair valor de _______ _____ _______ e ______ de dados, permitindo alta velocidade de _______, __________ e ______.
Uma das 9 definições de Big Data:
Internacional Data Corporation:
Big Data é uma nova geração de tecnologias e arquitetura, projetadas economicamente para extrair valor de volume muito grande e vasto de dados, permitindo alta velocidade de captura, descoberta e análise.
Uma das 9 definições de Big Data:
Kim, Trimi e Ji-Hyong
Big Data é o termo geral para a enorme quantidade de _____ ________ coletados a partir de _____ __ _____ __ ______.
Uma das 9 definições de Big Data:
Kim, Trimi e Ji-Hyong
Big Data é o termo geral para a enorme quantidade de dados digitais coletados a partir de todos os tipos de fonte.
Uma das 9 definições de Big Data:
Mahrt e Scharkow:
Big Data denota um maior conjunto de dados ao longo do tempo, conjunto de dados estes que são grandes demais para serem manipulados por:
infraestruturas de armazenamento e processamento regulares.
Uma das 9 definições de Big Data:
Davenport e Kwon:
Big Data são dados demasiadamente __________ ou muito _______________ para serem gerenciados e analisados através de meios ___________.
Uma das 9 definições de Big Data:
Davenport e Kwon:
Big Data são dados demasiadamente volumosos ou muito desestruturados para serem gerenciados e analisados através de meios tradicionais.
Uma das 9 definições de Big Data:
Di Martino:
Big Data se refere ao conjunto de dados cujo tamanho está além da habilidade de ferramentas típicas de banco de dados em:
capturar, gerenciar e analisar.
Uma das 9 definições de Big Data:
Rajesh:
Big Data são conjuntos de dados que são tão grandes que se tornam difíceis de trabalhar com o uso de:
ferramentas atualmente disponíveis.
De maneira geral, big data não se refere apenas aos dados, mas também às ________ ____________ criadas para lidar com dados em ______, _________ e __________ significativos.
De maneira geral, big data não se refere apenas aos dados, mas também às soluções tecnológicas criadas para lidar com dados em volume, variedade e velocidade significativos.
Big data trata-se de uma infinidade de informações que não são ____________ que, quando usadas com inteligência, se tornam uma arma poderosa para empresas ________ ________ cada vez melhores. As soluções tecnológicas que trabalham com esse conceito permitem analisar um enorme volume de dados de forma ______ e ainda oferecem total ________ ao gestor das informações.
Big data trata-se de uma infinidade de informações que não são estruturadas que, quando usadas com inteligência, se tornam uma arma poderosa para empresas tomarem decisões cada vez melhores. As soluções tecnológicas que trabalham com esse conceito permitem analisar um enorme volume de dados de forma rápida e ainda oferecem total controle ao gestor das informações.
As fontes de dados do Big Data são as mais diversas possíveis, como por exemplo:
- textos e fotos em rede sociais
- imagens
- vídeos
- jogadas específicas no esporte
- tratamentos na medicina.
- etc.
Os desafios do big data incluem:
- análise
- captura
- curadoria de dados
- pesquisa
- compartilhamento
- armazenamento
- transferência
- visualização
- informações sobre privacidade.
O big data, por vezes, se refere ao uso de análise _________ e outros métodos avançados para extrair _____ de dados.
O big data, por vezes, se refere ao uso de análise preditiva e outros métodos avançados para extrair valor de dados.
A análise preditiva é o processo de usar _____ para prever __________ _______.
A análise preditiva é o processo de usar dados para prever resultados futuros.
O prof. do Estratégia define big data como a _______, ______________ e a _______ de um grande volume de dados, que podem ser ____________ ou ___ ____________ e não podem ser consultados e pesquisados através de ______ __ _____ ___________.
O prof. do Estratégia define big data como a captura, gerenciamento e análise de um grande volume de dados que podem ser estruturados ou não estruturados e não podem ser consultados e pesquisados através de banco de dados relacionais.
CERTO OU ERRADO:
Big data é a captura, gerenciamento e análise de um grande volume de dados que podem ser estruturados ou não estruturados e que só podem ser consultados e pesquisados através de banco de dados relacionais.
ERRADO! Não podem ser consultados por banco de dados relacionais.
Big data, frequentemente, são dados obtidos de:
arquivos não estruturados.
Big data, frequentemente, são dados obtidos de arquivos não estruturados, como:
vídeo digital, imagens, dados de sensores, arquivos de logs e de qualquer tipo de dados não contidos em registros típicos com campos que podem ser pesquisados.
Dados estruturados são dados que podem ser armazenados, acessados e processados em _______ ____ e padronizado de acordo com ______ _____ __________. Esta organização é geralmente feita por _______ e ______ (semelhante a ________ __ ____), mas pode variar de acordo com a _____ de dados.
Dados estruturados são dados que podem ser armazenados, acessados e processados em formato fixo e padronizado de acordo com alguma regra específica. Esta organização é geralmente feita por colunas e linhas (semelhante a planilhas de Excel), mas pode variar de acordo com a fonte de dados.
São exemplos de dados estruturados:
Planilhas Eletrônicas, Bancos de Dados Relacionais e CSV.
Dados semi-estruturados são dados ___________ que não estão de acordo com a _________ ______ dos modelos de dados como em _______, mas que possuem __________ para separar elementos __________ e impor __________ de __________ e ______ dentro dos dados.
Dados semi-estruturados são dados estruturados que não estão de acordo com a estrutura formal dos modelos de dados como em tabelas, mas que possuem marcadores para separar elementos semânticos e impor hierarquia de registros e campos dentro dos dados.
São exemplos de dados semi-estruturados:
Dados de E-mail, Arquivos XML, Arquivos JSON e Banco de Dados NoSQL.
Dados não estruturados são dados que apresentam formato ou estrutura _______________, em que não se sabe extrair de forma _______ os valores desses dados em forma _____.
Dados não estruturados são dados que apresentam formato ou estrutura desconhecidos, em que não se sabe extrair de forma simples os valores desses dados em forma bruta.
São exemplos de dados não estruturados:
Documentos, Imagens, Vídeos, Arquivos de Texto, Posts em Redes Sociais.
CERTO OU ERRADO:
As soluções de big data focalizam dados que já existem, descartam dados não estruturados e disponibilizam os dados estruturados.
ERRADO! Focalizam tanto nos dados estruturados quanto no não estruturados.
CERTO OU ERRADO:
No big data, o tamanho das informações importa.
CERTO! De acordo com Mayer-Schonberger, quanto mais dados, melhor.
PARA FIXAR
O Google mostrou ser capaz de identificar o surgimento de um surto de gripe quase tão bem quanto os dados oficiais com base nos pacientes que visitam o médico – e pôde gerar uma resposta quase em tempo real, muito mais rápido que as fontes oficiais.
Onde os dados do big data podem ser armazenados?
Data Warehouse ou Data Lake (Lago de dados).
O Data Lake é um grande repositório capaz de armazenar _____ ____________, ____-____________ e ___-____________, assim como um método para organizar grandes volumes de dados de ________ ________ e de ________ ______.
O Data Lake é um grande repositório capaz de armazenar dados estruturados, semi-estruturados e não-estruturados, assim como um método para organizar grandes volumes de dados de diversos formatos e diversas fontes.
No data warehouse os dados geralmente são ________ antes de serem armazenados.
No data warehouse os dados geralmente são tratados (limpos, combinados, organizados, etc) antes de serem armazenados.
No data lake os dados geralmente são armazenados da maneira que:
foram capturados – brutos, sem nenhum tratamento.
Quais tipos de dados o data warehouse pode armazenar?
Todos os tipos de dados, mas o foco é nos dados estruturados.
Quais tipos de dados o data lake pode armazenar?
Dados estruturados, semi-estruturados e não-estruturados.
O data warehouse é ideal para:
usuários operacionais.
visto que as ferramentas analíticas são mais fáceis de usar.
O data lake é ideal para:
cientistas de dados
visto que as ferramentas analíticas são mais difíceis de usar.
As ferramentas analíticas do data warehouse e data lake são fáceis ou difíceis de usar?
- As do data warehouse são fáceis, por isso pode de ser usada por usuários operacionais.
- as do data lake são difíceis, por isso tem que ser usada por cientista de dados.
Qual o custo e o consumo de tempo do armazenamento de dados no data warehouse?
Custam geralmente mais caro e consome mais tempo.
Qual o custo e o consumo de tempo do armazenamento de dados no data lake?
Custam geralmente mais barato e consome menos tempo.
No data warehouse, um esquema é definido:
antes dos dados serem armazenados.
No data lake, um esquema é definido:
após os dados serem armazenados.
Qual o volume de dados que o data warehouse pode armazenar?
Um grande volume de dados.
Qual o volume de dados que o data lake pode armazenar?
Um gigantesco volume de dados.
O data lake é projetado para armazenar dados de diversas ______ e ________, não havendo a necessidade da definição de um _______ __ _____ para inserir _____ _____.
O data lake é projetado para armazenar dados de diversas fontes e formatos, não havendo a necessidade da definição de um esquema de dados para inserir novos itens.
CERTO OU ERRADO:
O Data Lake pode ser considerado um repositório de dados relacionados, sendo, portanto, um armazém de dados orientado por assunto.
ERRADO! Os dados não precisam estar relacionados e, portanto, não é orientado por assunto.
CERTO OU ERRADO:
O Data Lake pode ser considerado um conjunto de bancos de dados relacionais e com relacionamentos entre tabelas de diferentes esquemas de bancos de dados.
ERRADO! Não é um conjunto de dados relacionais e não precisa haver relacionamentos entre tabelas de diferentes esquemas – os dados são de diversos formatos e de diversas fontes
CERTO OU ERRADO:
Não há necessidade da definição de um esquema de dados para inserir novos itens no Data Lake.
CERTO!
CERTO OU ERRADO:
Data Lake é o resultado de sucessivas operações de mineração de dados, sendo um ambiente no qual é possível ter relatórios e dashboards de maneira amigável para os analistas de negócio.
ERRADO! Não é o resultado de operações de mineração de dados – são dados brutos sem tratamento e da maneira que foram capturados.
Infraestrutura de dados é o conjunto de _______, ________ e outras ___________ capazes de suportar ________ __ __.
Infraestrutura de dados é o conjunto de hardware, software e outras tecnologias capazes de suportar serviços de TI.
São exemplos de serviços de TI:
Servidor, Firewall, Rede, gerenciamento de segurança de dados…
CERTO OU ERRADO:
Hoje em dia, se pode utilizar serviços de TI fornecidos pela computação em nuvem ou ter uma infraestrutura própria.
CERTO!
De forma geral, as empresas utilizam o Big Data para se tornarem:
mais competitivas.