Aula 2 Flashcards

1
Q

Qual é o impacto da explosão do uso de redes sociais, crescimento do comércio eletrônico e a expansão da internet na geração de dados?

A

“A explosão do uso de redes sociais, o crescimento acelerado do comércio eletrônico e a expansão da internet têm criado um imenso volume de dados estruturados e não estruturados.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Como a ciência de dados é frequentemente mal interpretada?

A

“A ciência de dados, apesar de discutida desde a década de 1960, é frequentemente mal interpretada como sendo restrita apenas à análise estatística, aprendizado de máquina ou filtragem de dados para gerar informações.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

O que inclui o ciclo de vida dos dados?

A

“O ciclo de vida dos dados inclui:

Produção: Os dados são gerados por dispositivos digitais como computadores, celulares, sensores e câmeras.
Armazenamento: Os dados são então armazenados em mídias apropriadas.
Transformação: Através de processos como ETL (Extração, Transformação e Carga), os dados são organizados em data warehouses.
Análise: Operações variadas, desde consultas simples em SQL até algoritmos complexos de redes neurais, são utilizadas para extrair informação e conhecimento.
Descarte: Finalmente, os dados são descartados conforme a necessidade organizacional ou exigências legais.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quais são as duas fases principais do framework da ciência de dados?

A

“A Figura 2 (Adaptado de Amaral, 2016) apresenta um framework que divide a ciência de dados em duas fases principais: produção e governança, cada uma com seus respectivos elementos e tecnologias associadas.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quais são as três fases de análise de dados mencionadas?

A

“1. Análise Exploratória: Estudo inicial dos dados para identificar categorias e padrões usando técnicas quantitativas ou visuais.
2. Análise Explícita: Informação disponível de forma explícita nos dados, onde operações de baixa complexidade destacam as características-alvo.
3. Análise Implícita: Informação não disponível claramente, necessitando de técnicas sofisticadas de IA e aprendizado de máquina para ser revelada.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Como a IA contribui para a ciência de dados?

A

“A inteligência artificial (IA) oferece uma série de tecnologias para a análise implícita, essencialmente relacionadas ao aprendizado de máquina.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quais são alguns dos algoritmos comuns em diferentes atividades de aprendizado de máquina?

A

“A Tabela 1 (Adaptado de Amaral, 2016) destaca alguns algoritmos comuns em diferentes atividades de aprendizado de máquina:

Classificação: NaiveBayes, Random Forest, J48
Agrupamentos: DBSCAN, K-Means, K-Medoids
Regras de Associação: Apriori, FP Growth”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

O que é o termo “big data” e como ele é traduzido?

A

“O termo big data, traduzido literalmente por dados grandes ou dados massivos, indica essa eclosão dos dados. Também falamos de massa de dados, em analogia com a biomassa, um ecossistema complexo e de larga escala.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quais são os componentes principais associados à definição de big data?

A

“O conceito de big data está associado a grandes volumes de dados e sua definição envolve um conjunto de três a cinco vês: volume, velocidade, variedade e, ainda, veracidade e valor.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Como os insumos tecnológicos influenciam o fenômeno do big data?

A

“Como motor desse fenômeno, os insumos de tecnologia (processadores, memórias, locais de armazenamento) têm se tornado cada vez mais baratos. O baixo custo leva à disseminação de tais equipamentos, os quais produzem, nas mãos dos usuários, a quantidade massiva de dados.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

O que é “datafication” e como ele se relaciona com big data?

A

“O conceito-chave associado ao big data é o registro de qualquer fenômeno, natural ou não, e sua transformação em dados. Esses dados são reproduzidos ou analisados, imediatamente ou no futuro. Esse fenômeno é conhecido como datafication: o registro eletrônico de um fenômeno qualquer, como o movimento de um celular, o acionamento de um freio de um carro, uma foto ou gravações de câmeras de segurança.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Como a adoção de big data pode oferecer vantagem competitiva às empresas?

A

“Outro fator determinante para as empresas com relação à adoção do big data se refere à vantagem competitiva. Indo de uma abordagem tradicional da análise dos dados para melhorar o que está relacionado diretamente ao negócio da empresa, o big data vai além e permitirá o uso do dado de forma a torná-la mais competitiva e eficiente, coletando dados e analisando também aqueles que não estão relacionados diretamente ao seu negócio.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

O que é o modelo MapReduce e qual sua importância no contexto de big data?

A

“Um dos principais avanços nessa área veio do Google, que, para processar os dados recuperados pelos rastreadores de seu mecanismo de pesquisa e indexar toda a web, desenvolveu um modelo de design que automatiza a paralelização de uma grande classe de tratamentos. É o famoso modelo MapReduce.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

O que é o sistema Hadoop Apache e como ele se relaciona com a comunidade de código aberto?

A

“O sistema de processamento paralelo Hadoop Apache é o principal exemplo dessa transferência de tecnologia para o mundo do código aberto.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quais são os benefícios internos e externos para uma empresa que adota big data?

A

“Internamente, a empresa melhorará o processo de seleção, contratando profissionais mais comprometidos e com o perfil exigido para o cargo, além de proporcionar produtividade para seus colaboradores. As linhas de produção tenderão a ser mais eficientes, com menos paradas e menor custo de produção. Externamente, a empresa será capaz de entender as necessidades dos clientes, atuar na prevenção de perdas por recalls ou comprometimento de imagem e tenderá a ter consumidores mais fiéis.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

O que pode acontecer com empresas que não adotarem o big data?

A

“Por outro lado, as empresas que não souberem usar big data irão desaparecer do mercado.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

O que é a internet das coisas (IoT) e como ela influencia a produção de dados?

A

“A internet das coisas se refere à integração, por meio dos protocolos da internet, de todo ou qualquer dispositivo, bem como torná-los mais inteligentes, capazes de coletar e processar informações do ambiente ou das redes às quais estejam conectados.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Quais dispositivos além dos computadores pessoais são mencionados como fontes de geração de dados?

A

“Os dados, hoje em dia, podem ser gerados por uma série de dispositivos tais como mouses, telas touch screen, leitores de códigos de barras e QRCode, identificação por radiofrequência, mesas digitalizadoras, entre outros. Podem ser enquadrados ainda como dispositivos aqueles que não operam necessariamente conectados de alguma forma a um computador: câmeras de vídeo, máquinas fotográficas e dispositivos médicos portáteis.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Como os smartphones exemplificam a evolução dos dispositivos conectados à IoT?

A

“Os telefones celulares são dispositivos que, a cada versão ou melhoria de tecnologia, se tornam mais inteligentes. A designação de smartphones tipifica a diversidade de sensores que são disponibilizados ao longo da sua evolução. O smartphone, além de ser telefone, pode incluir acelerômetro, touch screen, Global Positioning System (GPS), giroscópio e magnetômetro, além dos dispositivos voltados à comunicação: bluetooth, wi-fi, entre outros.”

20
Q

O que é um microcontrolador e como ele se relaciona com a IoT?

A

“Um microcontrolador é um tipo de processador, uma espécie de pequeno computador inserido em um único chip. Os microcontroladores possuem tudo o que havia nos primeiros computadores pessoais e ainda são dotados de outras tecnologias. Eles contêm um processador, memória RAM e flash para armazenamento, além de pinos de entrada e saída que ligam o controlador a outros componentes eletrônicos, bem como aos demais dispositivos externos.”

21
Q

Qual foi o objetivo inicial do desenvolvimento da plataforma Arduino?

A

“O objetivo principal do desenvolvimento da plataforma Arduino era voltado para o ensino de estudantes. Em 2005, ela foi lançada comercialmente por Massimo Banzi e David Cuartielles. Acabou tornando-se um produto extremamente bem-sucedido entre fabricantes, estudantes e artistas.”

22
Q

Como a plataforma Arduino contribui para a computação física?

A

“O Arduino contém diversos terminais que permitem a conexão com dispositivos externos variados: diodos emissores de luz (LEDs), sensores, motores, diodos a laser, alto-falantes etc. Dessa forma, o Arduino consiste em uma plataforma de microcontrolador a qual permite o que é denominado de computação física. Um programa é desenvolvido em uma interface de desenvolvimento (IDE) e é feito o upload no microcontrolador, que pode executar então uma série de ações: ligar ou desligar lâmpadas, motores, fazer a medição de sensores etc.”

23
Q

O que diferencia a plataforma Raspberry Pi da plataforma Arduino?

A

“Outras plataformas permitem um poder de processamento mais robusto, tal como a Raspberry Pi. Essa placa funciona com o sistema operacional Linux, contendo mais interfaces que as proporcionadas pelo Arduino, tais como HDMI, USB, drivers para muitos periféricos. No entanto, são um pouco mais caros e requerem um consumo maior de energia.”

24
Q

Qual é o fenômeno conhecido como datafication e como ele se relaciona com big data?

A

“O conceito-chave associado ao big data é o registro de qualquer fenômeno, natural ou não, e sua transformação em dados. Esses dados são reproduzidos ou analisados, imediatamente ou no futuro. Esse fenômeno é conhecido como datafication: o registro eletrônico de um fenômeno qualquer, como o movimento de um celular, o acionamento de um freio de um carro, uma foto ou gravações de câmeras de segurança.”

25
Q

Como as redes de telefonia celular e wi-fi contribuíram para a IoT?

A

“A internet, por meio da família de protocolos TCP/IP, seguida pelas redes wi-fi, tornou possível a mobilidade e dispensou a fiação típica da conectividade de rede. Aliado a esse fato, as redes de telefonia celular 2G/3G/4G foram fundamentais para aumentar o rol de equipamentos a serem conectados.”

26
Q

O que foi introduzido por Edgar Codd na década de 1970 e qual a sua importância?

A

“Com relação à estrutura em que os dados são armazenados, o modelo relacional, surgido na década de 1970 com Edgar Codd, se mostrou com alta eficiência em aplicações empresariais, permitindo que os dados fossem armazenados com integridade e possibilitando operações de inclusão, alteração e exclusão de dados.” (Amaral, 2016, p. 25)

27
Q

Quais são as dificuldades associadas à utilização do modelo relacional em um contexto de análise de dados?

A

“Apesar de o modelo relacional manter o armazenamento com integridade, com pouca ou mesmo nenhuma redundância, a tarefa de normalizar os dados se mostra difícil para utilização em um contexto de análise de dados.” (Amaral, 2016, p. 29)

28
Q

O que são data warehouses e qual a sua principal ideia?

A

“Na década de 1990, começa a se popularizar o conceito de data warehouses. Estes se constituíam em repositórios de dados, estruturados com base nos bancos de dados relacionais. A sua ideia principal é facilitar as análises de dados, mantendo informações calculadas previamente e dados que não seguem um padrão de normalização tal como no modelo relacional.” (Amaral, 2016, p. 40)

29
Q

O que é um modelo multidimensional e qual a sua aplicação nos data warehouses?

A

“De maneira diferenciada do modelo relacional, um data warehouse utiliza um modelo multidimensional, estando no centro desse modelo um elemento central denominado de fato, que se refere à informação nuclear que se quer analisar. Um fato contém medidas refletidas em valores a serem analisados ou, ainda, calculados previamente. Um fato possui dimensões, que são as diferentes características pelas quais se quer analisar o fato.” (Amaral, 2016, p. 42)

30
Q

O que são data marts e qual a sua relação com data warehouses?

A

“Data marts são subconjuntos de um data warehouse, em que existe uma porção resumida ou bem focalizada dos dados da empresa em um banco de dados separado, geralmente destinado a um grupo específico de usuários.” (Laudon; Laudon, 2010)

31
Q

O que é OLAP e como ele é utilizado na análise de dados?

A

“O Olap é um modelo construído na perspectiva de um banco de dados multidimensional que é associado à construção de cubos de dados. Cubos são representações multidimensionais que normalmente requerem um único fato, em que, por meio de operações denominadas de drill down e drill up, o usuário pode expandir ou colapsar o nível de detalhes apresentado.” (Amaral, 2016, p. 50)

32
Q

O que é o MapReduce e quem o propôs?

A

“Um deles é o MapReduce, proposto por funcionários do Google (Jeffery Dean e Sanjay Ghemawat) para o processamento de volumes muito grandes de dados de maneira simplificada. O modelo permite dividir o processamento entre vários computadores de uma rede.” (Amaral, 2016, p. 57)

33
Q

Como funciona o Hadoop Distributed File System (HDFS)?

A

“O hadoop distributed file system (HDFS) é um tipo de sistema de arquivos distribuídos estruturado em uma arquitetura mestre/escravo. Um dos nós, denominado de nó mestre, contém os metadados, nomes de arquivos, permissões de acesso e localização de cada bloco de armazenamento. Os nós escravos, que, por padrão, contêm, cada um, 64 MB, armazenam, por sua vez, os dados.” (Amaral, 2016, p. 58-59)

34
Q

O que é NoSQL e como ele se difere do modelo relacional?

A

“Para dar conta dos novos requisitos de análise de dados, o modelo relacional deu lugar a uma nova geração de sistemas de gerenciamento de banco de dados conhecidas como NoSQL. O termo NoSQL indica que os bancos de dados estão armazenados em uma estrutura que não é a do modelo relacional. O modelo mais tradicional de NoSQL utiliza o conceito de chave-valor, tal como visto no MapReduce.” (Amaral, 2016, p. 59)

35
Q

O que caracteriza a análise de dados?

A

“A análise de dados é a identificação de algum tipo de transformação nos dados, em busca de informação ou conhecimento. Em termos de análise, pode-se aplicar uma gama de técnicas ou ferramentas, dependendo do objetivo de análise em questão.” (Amaral, 2016, p. 64)

36
Q

Quais são as três formas de abordagem de análise de dados que um cientista de dados pode utilizar?

A

“De maneira a propor uma divisão nas abordagens de análise de dados, um cientista de dados pode utilizar três formas: exploratória, explícita ou implícita.” (Amaral, 2016, p. 64)

37
Q

Qual é o objetivo da análise exploratória e como ela pode ser realizada?

A

“O objetivo aqui é buscar conhecer os dados antes de tentar fazer uma análise deles, utilizando-se técnicas explícitas ou implícitas. A análise exploratória pode-se utilizar tanto de técnicas quantitativas quanto visuais.” (Amaral, 2016, p. 64)

38
Q

Quais são exemplos de técnicas quantitativas utilizadas na análise exploratória?

A

“Técnicas quantitativas podem fazer uso de medidas de tendência central, tais como média, mediana e moda; e de medidas de dispersão, por exemplo variância e desvio-padrão.” (Amaral, 2016, p. 64)

39
Q

Qual é a importância do uso de softwares estatísticos na análise exploratória?

A

“O uso de softwares estatísticos, tais como o R, é recomendável nessa fase, de maneira a tornar produtiva a análise exploratória.” (Amaral, 2016, p. 64)

40
Q

O que são diagramas de dispersão e boxplots, e qual a sua utilidade na análise de dados?

A

“Diagramas de dispersão são utilizados para explorar os dados visualmente. O diagrama de caixa (boxplot) também é bastante utilizado por integrar, em um único gráfico, uma série de medidas, proporcionando a comparação visual de diferentes grandezas em análise.” (Amaral, 2016, p. 64-65)

41
Q

O que é uma nuvem de palavras (tag cloud) e em que contexto ela é utilizada?

A

“Quando se considera mineração de textos, como as que acontecem em análises de redes sociais, pode-se utilizar a nuvem de palavras (tag cloud). A ideia é considerar as palavras que aparecem com mais frequência no texto com a fonte maior em relação às outras.” (Amaral, 2016, p. 70)

42
Q

O que distingue a análise explícita da análise exploratória?

A

“As análises explícitas são técnicas simples, nas quais se busca destacar informações existentes nos dados. A diferença com relação à análise exploratória reside mais nos objetivos do que nas técnicas.” (Amaral, 2016, p. 73)

43
Q

O que são as análises implícitas e qual o seu objetivo?

A

“As análises implícitas se referem àquelas nas quais se deseja conhecer em profundidade características que existem nos dados, as quais não são facilmente observadas, quando se olha para os dados diretamente.” (Amaral, 2016, p. 81)

44
Q

Qual a relação entre machine learning e mineração de dados?

A

“O aprendizado de máquina (machine learning) também está intimamente ligado a técnicas estatísticas e à mineração de dados. Enquanto o machine learning está relacionado a algoritmos que buscam o reconhecimento de padrões em dados, a mineração de dados se refere à aplicação desses algoritmos em conjuntos de dados massivos, em busca de informação e conhecimento.” (Amaral, 2016, p. 81)

45
Q

Como o big data está relacionado à mineração de dados?

A

“Dessa forma, tem-se a relação entre o big data e a mineração de dados, pois esta pode ser operacionalizada por intermédio das técnicas de machine learning.” (Amaral, 2016, p. 81)