DADOS Flashcards

1
Q

Etapas da fluência em dados

A
  1. Ler: entender o que são os dados e quais aspectos do mundo eles representam;
  2. Trabalhar: criar, adquirir, limpar e gerenciar (o ciclo de vida dos) dados;
  3. Analisar: filtrar, classificar, agregar, comparar, fazer previsões e desempenhar outras
    atividades analíticas com dados;
  4. Argumentar: utilizar dados para apoiar uma narrativa com intuito de comunicar alguma mensagem a um público específico.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

O processo de implantação da Data Literacy

A
  • Identificar o nível de Data Literacy dos colaboradores.
  • Deixar os dados disponíveis aos profissionais.
  • Estimular e capacitar as pessoas
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

A governança de dados

A

controlar os dados, composta de:
* Armazenamento;
* Armazenamento analítico;
* Análise de dados;
* Visualização.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

O armazenamento analítico de dados

A

é feito para dados que já passaram por alguma análise. São exemplos de sistemas para armazenamento analítico o Data Warehouse, o Data Mart e o HDFS.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

A análise de dados Explícita:

A
  • feita em dados de existência já conhecida;
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

A análise de dados Implícita:

A
  • feita de dados que surgem no processo;
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

A análise de dados Exploratória:

A
  • para conhecer dados;
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

A análise de dados Preditiva:

A
  • para fazer previsões;
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

A análise de dados Prescritiva:

A
  • para prescrever o melhor caminho
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Pirâmide de Conhecimento

A

explica o caminho da produção de conhecimento a partir dos
dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Ciclo de Vida dos dados

A

Produção: Armazenamento:
Transformação: Análise de dados: Descarte:

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

A gestão de dados, por sua vez, é composta das seguintes etapas:

A

planejar; coletar; assegurar ; descrever ; preservar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Tendências: da gestão de dados.

A
  • Automação via software; Blackchain;
  • Data lake; Machine Learning; Ética;
  • Democratização; Dashboards;
  • Nuvens distribuídas
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Dashboards:

A

são painéis que permitem a visualização dos dados de modo a melhorar a experiência do usuário.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Uma organização que
lida com um grande volume de dados estruturados e não estruturados objetiva organizar esses dados para encontrar insights necessários para o negócio usando técnica, investindo na área de

A

Data Science;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

O conhecimento é obtido a partir de um conjunto de informações inseridas em um mesmo e específico contexto.

A

F. Para obter conhecimento a partir de informações, é necessário que elas se refiram a contextos variados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

O conhecimento serve para dar suporte ao processamento decisório; ele representa a informação

A

tratada, confiável e íntegra.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Normalização linear, também conhecida como normalização max- min, consiste em estabelecer uma nova base numérica de referência, obtida a partir do valor de máximo e mínimo global do conjunto utilizado, para cada dado de um conjunto de dados.

A

V

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Os dados caracterizados como categorias sem ordem, como, por exemplo,

A

cachorro, cenoura, cebola, casa, também chamados de fatores, são categorias discretas e únicas sem ordem inerente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Os boxplots podem ser usados para realizar análise de um estudo da

A

associação entre uma variável quantitativa e uma qualitativa.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

As variáveis quantitativas discretas

A

são aquelas que assumem valores no conjunto dos números naturais, como o número de municípios brasileiros que recebem atualmente a programação de TV em sinal analógico, por exemplo. são representadas por números inteiros não negativos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Dados estruturados são aqueles representados em um formato

A

estrito como, por exemplo, a informação armazenada nos bancos de dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

A finalidade de um banco de dados é

A

armazenar os dados de forma segura, como, por exemplo, sobre determinados itens de interesse de uma organização.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Os dados armazenados em banco de dados podem ser:

A

ESTRUTURADOS, NÃO ESTRUTURADOS E SEMIESTRUTURADOS.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Dados Não estruturados:

A

São dados que não possuem uma organização rígida e não seguem uma estrutura padronizada. São totalmente flexível e dinâmica.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Dados Semiestruturados:

A

São dados que combinam estrutura rígida (ESTRUTURADOS) e dados que não possuem uma estrutura rígida (NÃOESTRUTURADOS)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

O conhecimento serve para dar suporte ao processamento decisório; ele representa a
informação tratada, confiável e íntegra.

A

V

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

ATRIBUTOS DOS DADOS

A

informações sobre ele DADOS , como: o nome, idade, quantidade de filhos, o salário, onde trabalha, onde mora etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Dados Qualitativos (ou categóricos):

A

dividem-se em nominal ou ordinal. por exemplo, onde determinada pessoa mora. Quando há uma ordem desses dados, chamamos de qualitativo ordinal, um exemplo é a escolaridade: ensino fundamental, ensino médio, graduação, especialização, mestrado, doutorado. Percebe-se que há uma relação de grandeza

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Dados Quantitativos (ou numéricos):

A

dividem-se intervalar ou razão. Intervalar é como se fosse a temperatura em graus Celsius, que pode ter valores negativos e positivos; e a razão seria a temperatura em Fahrenheit, que começa a partir do zero absoluto.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Dado nominal

A

seria a cor de cabelo e dado ordinal seria a hierarquia de uma empresa.
Ex.: conjunto de dados – Hospital.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

DADO Quantitativo discreto:

A

os valores quantitativos , são valores inteiros. Exemplo: 28, 18 e 49.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Quantitativo contínuo:

A

são os números reais, como a temperatura, que tem valores após a vírgula.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Os Requisitos Funcionais do Usuário

A

Transferência de dados ;
Transformação de dados ;
Armazenamento de dados ;
Recuperação de dados;
Requisitos do usuário :
Restrições de Qualidade ;
Restrições Organizacionais ;
Restrições Ambientais ;
Restrições de Implementação;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

A transformação do esquema de tabela não normalizada em um esquema relacional na primeira forma normal (1FN) consiste

A

da eliminação das tabelas aninhadas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Primeira Forma Normal (1FN) O objetivo é

A

retirar os atributos ou grupos repetitivos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

O business intelligence é responsável por utilizar estrategicamente

A

dados nas organizações a partir da coleta, tratamento e análise de todo e qualquer tipo de informação relevante, possibilitando as melhores decisões para os negócios.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

O processo de BI se baseia na

A

transformação de dados em informações, depois em decisões e, por fim, em ações.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

O processo de transformação de dados pode exigir que dados logicamente relacionados, mas fisicamente separados,

A

sejam recompostos, ainda que envolvam registros distintos ou até mesmo estejam em bancos de dados operacionais distintos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

ANALYTICS

A

É o momento em que são criados os modelos, resposável pela modelagem do processo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

Analytics, em sua definição mais formal, refere-se ao uso

A

aplicado de dados, análises e raciocínio sistemático para seguir em um processo de tomada de decisão muito mais eficiente.

42
Q

Técnicas Utilizadas no Analytics

A
  • Aprendizado de máquina.
  • Mineração de dados.
  • Modelagem estatística.
43
Q

Dados estruturados:

A

são as tabelas com campos bem definidos.

44
Q

Dados não estruturados:

A

não é possível extrair uma informação que o identifique. Exemplo: uma imagem.

45
Q

Dados semi-estruturados:

A

são dados em que existe uma certa organização, mas não se trata de uma tabela fixa com os valores fixos. Exemplo: Xml.

46
Q

A Analytics possui três etapas.

A

Análise Exploratória; Modelagem de Dados; Construção de Relatórios;

47
Q

Análise Exploratória

A
  • Manuseio de possíveis dados incompletos;
  • Verificação dos pontos fora da curva;
  • Inserção de dados no sistema.
48
Q

Modelagem de Dados

A

Criação de regras para os diferentes tipos de análises a se realizar.

49
Q

Gerenciamento de Dados (Big Data)

A
  • Adquirir e gravar;
  • Extrair, limpar e anotar;
  • Integrar, agregar e representar.
50
Q

Ciclo de Vida Analytics

A

o ciclo começa com a identificação do problema de negócio. Depois, os dados são preparados, explorados e transformados. Em seguida, faz-se a modelagem, o modelo é validado, implantado e, após a implantação, o modelo é monitorado.

51
Q

O termo Big Data Analytics refere-se aos poderosos _____ que tratam dados _______ e ________ para transformá-los em informações úteis às organizações, permitindo-lhes analisar dados, como registros de call center, postagens de redes sociais, de blogs, dados de CRM e demonstrativos de resultados.

A

softwares; estruturados e não estruturados;

52
Q

O big data analytics difere do business intelligence por ….

A

analisar o que já existe e o que está por vir, apontando novos caminhos. Em BI há uma modelagem dimensional dos dados gerando um data warehouse.

53
Q

Aprendizado de Máquina

A

trata-se da capacidade de treinar uma máquina com base em um gigantesco banco de dados para que a máquina seja capaz de reconhecer padrões e classificar automaticamente os dados de modo a aperfeiçoar determinado processo.

54
Q

A inteligência artificial consiste em

A

dotar as máquinas de níveis sofisticados de raciocínio.

55
Q

A inteligência artificial agrupa conceitos como…

A

aprendizado de máquina, robótica e mineração de dados, realizando processos estatísticos para analisar dados.

56
Q

Aprendizado de Máquina

A

“Um sistema de aprendizado [supervisionado] é um programa de computador que toma decisões baseadas na experiência contida em exemplos solucionados com sucesso”.

57
Q

Aprendizado de Máquina Tarefas Descritivas:

A
  • Busca-se o desenvolvimento de algoritmos que descreverão os dados. * Exemplo: agrupamento.
58
Q

Aprendizado de Máquina Tarefas Preditivas:

A
  • Fazem previsões de alguma coisa a partir de uma entrada de dados.
  • Podem ser divididas em tarefas de classificação e tarefas de regressão.
59
Q

Paradigmas de Aprendizado de Máquina

A

Simbólico; Protótipo ou Memorização (Instance Based); Conexionista; Estatístico;

60
Q

Paradigmas de Aprendizado de Máquina Simbólico.

A

Representação simbólica na forma de alguma expressão lógica, como árvores de decisão e regras.

61
Q

Protótipo ou Memorização (Instance Based).

A

Sistema que classifica um exemplo por meio de exemplos similares conhecidos.

62
Q

Paradigmas de Aprendizado de Máquina Conexionista:

A

Redes neurais, as quais envolvem unidades altamente interconectadas.

63
Q

Paradigmas de Aprendizado de Máquina Conexionista (Genético):

A

Um classificador genético consiste de uma população de elementos de classificação
que competem para fazer a predição.

64
Q

Paradigmas de Aprendizado de Máquina Estatístico:

A

Utilização de modelos estatísticos para encontrar uma boa aproximação do conceito induzido. destacam-se os de aprendizado Bayesiano, que utilizam um modelo probabilístico baseado no conhecimento prévio do problema, o qual é combinado com os exemplos de treinamento para determinar a probabilidade final de uma hipótese.

65
Q

No aprendizado supervisionado, os exemplos estão_________.

A

rotulados, isto é, a classe é conhecida.

66
Q

no aprendizado não supervisionado não existe uma classe _____.

A

associada

67
Q

No aprendizado supervisionado ocorrem problemas de__________ e ___________.

A

regressão e classificação.

68
Q

Os exemplos estão rotulados quando a saída é ___________. Tratam-se de diversos atributos de entradas que resultam em uma saída (x1, x2, x3, xn = y1).

A

conhecida;

69
Q

Seguindo o exemplo do classificador de pessoas, o modelo que possui a saída esperada com base nas informações de uma pessoa que já recebeu crédito no passado, tem-se o ___________.

A

aprendizado supervisionado

70
Q

Quando não se tem tais informações acerca dos precedentes duma pessoa, então o aprendizado não é______.

A

supervisionado

71
Q

Tipos de sistemas de aprendizado de maquina Não Simbólico ou Caixa-preta:

A

– Não facilmente interpretado por humanos.
– Própria representação de conceitos.
– Não fornece esclarecimento ou explicação sobre o processo de classificação.

72
Q

Tipos de sistemas de aprendizado de maquina Simbólico ou Orientado a conhecimento:

A

Cria estruturas simbólicas que podem ser compreendidas por seres humanos.
– ”Os resultados da indução devem ser descrições simbólicas das entidades dadas…

73
Q

o teste caixa-preta indica a __________ acerca do processo que ocorre após a entrada dos dados.

A

falta de conhecimento.

74
Q

Aprendizado de Máquina Indutor:

A

Programa que gera uma hipótese (classificador) a partir de um conjunto de exemplos.

75
Q

Aprendizado de Máquina Exemplo, caso ou registro (instance):

A

É um conjunto fixo de atributos.’

76
Q

Aprendizado de Máquina Atributo ou campo (feature):

A

Uma única característica de um exemplo.

77
Q

Aprendizado de Máquina Domínio:

A

Conjunto de valores que um atributo pode assumir.

78
Q

Aprendizado de Máquina Classe:

A

Atributo especial que descreve o fenômeno de interesse (somente no Aprendizado
Supervisionado).

79
Q

atributo Nominal

A

o atributo assume valores em um conjunto finito, sendo que alguns indutores podem também aceitar uma subdivisão entre
os atributos nominais.

80
Q

atributo Ordenado:

A

o domínio é ordenado, mas a diferença absoluta dos valores é desconhecida (ex.: escala de temperatura: baixa, média, alta ou severidade de um machucado).

81
Q

atributo Não ordenado:

A

não existe uma ordem entre os valores.

82
Q

atributo Contínuo:

A

o domínio é ordenado e pode ser representado por um valor real.

83
Q

aula 2.2 pag 5

A
84
Q

O QUE É UM CLASSIFICADOR ?

A

(hipótese ou descrição de conceito) de forma que, dado um novo exemplo, ele possa
predizer precisamente sua classe.

85
Q

O melhor classificador é aquele que mais se aproxima da ________.

A

função real.

86
Q

No aprendizado de máquina o que é utilizado para identificar saídas.

A

funções

87
Q
  • Bias:
A

qualquer critério de preferência de uma hipótese sobre outra (além da consistência com os exemplos).

88
Q
  • Um indutor é instável
A

se uma pequena perturbação (variação) no conjunto de treinamento pode causar modificação no classificador gerado.

89
Q
  • Um indutor é estável
A

se o classificador gerado não muda muito caso os exemplos de treinamento se alterem.

90
Q

O indutor não incremental

A

recebe todo o conjunto de treinamento para resultar em um classificador.

91
Q

indutor incremental

A

precisa ser trabalhado exemplo a exemplo.

92
Q

Overfitting (overtraining):

A
  • A hipótese extraída a partir dos exemplos é muito específica para o conjunto de
    treinamento.
93
Q

Underfitting (pouco treino):

A

A hipótese induzida apresenta um desempenho ruim tanto no conjunto de treinamento como de teste.
– Poucos exemplos representativos foram dados ao sistema de aprendizado (ex.:
algoritmos de árvores de decisão ou de indução de regras).

94
Q

Pergunta: O que é a matriz de confusão?

A

Resposta: É uma tabela que permite visualizar o desempenho de um algoritmo de classificação.

95
Q

Pergunta: Em quais tipos de problemas a matriz de confusão é utilizada?

A

Resposta: A matriz de confusão é utilizada em problemas de classificação, onde a saída do modelo é uma classe ou rótulo.

96
Q

Pergunta: Qual é um exemplo de aplicação da matriz de confusão?

A

Resposta: Um exemplo é avaliar se um tumor é cancerígeno ou não.

97
Q

Pergunta: O que a matriz de confusão indica?

A

Resposta: A matriz de confusão indica a quantidade de acertos e erros do modelo.

98
Q

Pergunta: Como a matriz de confusão organiza os resultados?

A

Resposta: A matriz de confusão organiza os resultados em uma tabela com quatro células: verdadeiro positivo, verdadeiro negativo, falso positivo e falso negativo.

99
Q

Em soluções de IA, a tecnologia que possui a capacidade de melhorar o desempenho na realização de alguma tarefa por meio da experiência usando dados de treinamento, podendo ser supervisionado ou não, é o(a):

A

Aprendizado de Máquina (Machine Learning).

100
Q

O tipo de aprendizado máquina, que consiste em treinar um sistema a partir de dados que não estão rotulados e/ou classificados e utilizar algoritmos que buscam descobrir padrões ocultos que agrupam as informações de acordo com semelhanças ou diferenças, é denominado

A

não supervisionado.