Aula 2 Flashcards
Qual é o impacto da explosão do uso de redes sociais, crescimento do comércio eletrônico e a expansão da internet na geração de dados?
“A explosão do uso de redes sociais, o crescimento acelerado do comércio eletrônico e a expansão da internet têm criado um imenso volume de dados estruturados e não estruturados.”
Como a ciência de dados é frequentemente mal interpretada?
“A ciência de dados, apesar de discutida desde a década de 1960, é frequentemente mal interpretada como sendo restrita apenas à análise estatística, aprendizado de máquina ou filtragem de dados para gerar informações.”
O que inclui o ciclo de vida dos dados?
“O ciclo de vida dos dados inclui:
Produção: Os dados são gerados por dispositivos digitais como computadores, celulares, sensores e câmeras.
Armazenamento: Os dados são então armazenados em mídias apropriadas.
Transformação: Através de processos como ETL (Extração, Transformação e Carga), os dados são organizados em data warehouses.
Análise: Operações variadas, desde consultas simples em SQL até algoritmos complexos de redes neurais, são utilizadas para extrair informação e conhecimento.
Descarte: Finalmente, os dados são descartados conforme a necessidade organizacional ou exigências legais.”
Quais são as duas fases principais do framework da ciência de dados?
“A Figura 2 (Adaptado de Amaral, 2016) apresenta um framework que divide a ciência de dados em duas fases principais: produção e governança, cada uma com seus respectivos elementos e tecnologias associadas.”
Quais são as três fases de análise de dados mencionadas?
“1. Análise Exploratória: Estudo inicial dos dados para identificar categorias e padrões usando técnicas quantitativas ou visuais.
2. Análise Explícita: Informação disponível de forma explícita nos dados, onde operações de baixa complexidade destacam as características-alvo.
3. Análise Implícita: Informação não disponível claramente, necessitando de técnicas sofisticadas de IA e aprendizado de máquina para ser revelada.”
Como a IA contribui para a ciência de dados?
“A inteligência artificial (IA) oferece uma série de tecnologias para a análise implícita, essencialmente relacionadas ao aprendizado de máquina.”
Quais são alguns dos algoritmos comuns em diferentes atividades de aprendizado de máquina?
“A Tabela 1 (Adaptado de Amaral, 2016) destaca alguns algoritmos comuns em diferentes atividades de aprendizado de máquina:
Classificação: NaiveBayes, Random Forest, J48
Agrupamentos: DBSCAN, K-Means, K-Medoids
Regras de Associação: Apriori, FP Growth”
O que é o termo “big data” e como ele é traduzido?
“O termo big data, traduzido literalmente por dados grandes ou dados massivos, indica essa eclosão dos dados. Também falamos de massa de dados, em analogia com a biomassa, um ecossistema complexo e de larga escala.”
Quais são os componentes principais associados à definição de big data?
“O conceito de big data está associado a grandes volumes de dados e sua definição envolve um conjunto de três a cinco vês: volume, velocidade, variedade e, ainda, veracidade e valor.”
Como os insumos tecnológicos influenciam o fenômeno do big data?
“Como motor desse fenômeno, os insumos de tecnologia (processadores, memórias, locais de armazenamento) têm se tornado cada vez mais baratos. O baixo custo leva à disseminação de tais equipamentos, os quais produzem, nas mãos dos usuários, a quantidade massiva de dados.”
O que é “datafication” e como ele se relaciona com big data?
“O conceito-chave associado ao big data é o registro de qualquer fenômeno, natural ou não, e sua transformação em dados. Esses dados são reproduzidos ou analisados, imediatamente ou no futuro. Esse fenômeno é conhecido como datafication: o registro eletrônico de um fenômeno qualquer, como o movimento de um celular, o acionamento de um freio de um carro, uma foto ou gravações de câmeras de segurança.”
Como a adoção de big data pode oferecer vantagem competitiva às empresas?
“Outro fator determinante para as empresas com relação à adoção do big data se refere à vantagem competitiva. Indo de uma abordagem tradicional da análise dos dados para melhorar o que está relacionado diretamente ao negócio da empresa, o big data vai além e permitirá o uso do dado de forma a torná-la mais competitiva e eficiente, coletando dados e analisando também aqueles que não estão relacionados diretamente ao seu negócio.”
O que é o modelo MapReduce e qual sua importância no contexto de big data?
“Um dos principais avanços nessa área veio do Google, que, para processar os dados recuperados pelos rastreadores de seu mecanismo de pesquisa e indexar toda a web, desenvolveu um modelo de design que automatiza a paralelização de uma grande classe de tratamentos. É o famoso modelo MapReduce.”
O que é o sistema Hadoop Apache e como ele se relaciona com a comunidade de código aberto?
“O sistema de processamento paralelo Hadoop Apache é o principal exemplo dessa transferência de tecnologia para o mundo do código aberto.”
Quais são os benefícios internos e externos para uma empresa que adota big data?
“Internamente, a empresa melhorará o processo de seleção, contratando profissionais mais comprometidos e com o perfil exigido para o cargo, além de proporcionar produtividade para seus colaboradores. As linhas de produção tenderão a ser mais eficientes, com menos paradas e menor custo de produção. Externamente, a empresa será capaz de entender as necessidades dos clientes, atuar na prevenção de perdas por recalls ou comprometimento de imagem e tenderá a ter consumidores mais fiéis.”
O que pode acontecer com empresas que não adotarem o big data?
“Por outro lado, as empresas que não souberem usar big data irão desaparecer do mercado.”
O que é a internet das coisas (IoT) e como ela influencia a produção de dados?
“A internet das coisas se refere à integração, por meio dos protocolos da internet, de todo ou qualquer dispositivo, bem como torná-los mais inteligentes, capazes de coletar e processar informações do ambiente ou das redes às quais estejam conectados.”
Quais dispositivos além dos computadores pessoais são mencionados como fontes de geração de dados?
“Os dados, hoje em dia, podem ser gerados por uma série de dispositivos tais como mouses, telas touch screen, leitores de códigos de barras e QRCode, identificação por radiofrequência, mesas digitalizadoras, entre outros. Podem ser enquadrados ainda como dispositivos aqueles que não operam necessariamente conectados de alguma forma a um computador: câmeras de vídeo, máquinas fotográficas e dispositivos médicos portáteis.”