DADOS Flashcards
Etapas da fluência em dados
- Ler: entender o que são os dados e quais aspectos do mundo eles representam;
- Trabalhar: criar, adquirir, limpar e gerenciar (o ciclo de vida dos) dados;
- Analisar: filtrar, classificar, agregar, comparar, fazer previsões e desempenhar outras
atividades analíticas com dados; - Argumentar: utilizar dados para apoiar uma narrativa com intuito de comunicar alguma mensagem a um público específico.
O processo de implantação da Data Literacy
- Identificar o nível de Data Literacy dos colaboradores.
- Deixar os dados disponíveis aos profissionais.
- Estimular e capacitar as pessoas
A governança de dados
controlar os dados, composta de:
* Armazenamento;
* Armazenamento analítico;
* Análise de dados;
* Visualização.
O armazenamento analítico de dados
é feito para dados que já passaram por alguma análise. São exemplos de sistemas para armazenamento analítico o Data Warehouse, o Data Mart e o HDFS.
A análise de dados Explícita:
- feita em dados de existência já conhecida;
A análise de dados Implícita:
- feita de dados que surgem no processo;
A análise de dados Exploratória:
- para conhecer dados;
A análise de dados Preditiva:
- para fazer previsões;
A análise de dados Prescritiva:
- para prescrever o melhor caminho
Pirâmide de Conhecimento
explica o caminho da produção de conhecimento a partir dos
dados.
Ciclo de Vida dos dados
Produção: Armazenamento:
Transformação: Análise de dados: Descarte:
A gestão de dados, por sua vez, é composta das seguintes etapas:
planejar; coletar; assegurar ; descrever ; preservar.
Tendências: da gestão de dados.
- Automação via software; Blackchain;
- Data lake; Machine Learning; Ética;
- Democratização; Dashboards;
- Nuvens distribuídas
Dashboards:
são painéis que permitem a visualização dos dados de modo a melhorar a experiência do usuário.
Uma organização que
lida com um grande volume de dados estruturados e não estruturados objetiva organizar esses dados para encontrar insights necessários para o negócio usando técnica, investindo na área de
Data Science;
O conhecimento é obtido a partir de um conjunto de informações inseridas em um mesmo e específico contexto.
F. Para obter conhecimento a partir de informações, é necessário que elas se refiram a contextos variados
O conhecimento serve para dar suporte ao processamento decisório; ele representa a informação
tratada, confiável e íntegra.
Normalização linear, também conhecida como normalização max- min, consiste em estabelecer uma nova base numérica de referência, obtida a partir do valor de máximo e mínimo global do conjunto utilizado, para cada dado de um conjunto de dados.
V
Os dados caracterizados como categorias sem ordem, como, por exemplo,
cachorro, cenoura, cebola, casa, também chamados de fatores, são categorias discretas e únicas sem ordem inerente.
Os boxplots podem ser usados para realizar análise de um estudo da
associação entre uma variável quantitativa e uma qualitativa.
As variáveis quantitativas discretas
são aquelas que assumem valores no conjunto dos números naturais, como o número de municípios brasileiros que recebem atualmente a programação de TV em sinal analógico, por exemplo. são representadas por números inteiros não negativos.
Dados estruturados são aqueles representados em um formato
estrito como, por exemplo, a informação armazenada nos bancos de dados.
A finalidade de um banco de dados é
armazenar os dados de forma segura, como, por exemplo, sobre determinados itens de interesse de uma organização.
Os dados armazenados em banco de dados podem ser:
ESTRUTURADOS, NÃO ESTRUTURADOS E SEMIESTRUTURADOS.
Dados Não estruturados:
São dados que não possuem uma organização rígida e não seguem uma estrutura padronizada. São totalmente flexível e dinâmica.
Dados Semiestruturados:
São dados que combinam estrutura rígida (ESTRUTURADOS) e dados que não possuem uma estrutura rígida (NÃOESTRUTURADOS)
O conhecimento serve para dar suporte ao processamento decisório; ele representa a
informação tratada, confiável e íntegra.
V
ATRIBUTOS DOS DADOS
informações sobre ele DADOS , como: o nome, idade, quantidade de filhos, o salário, onde trabalha, onde mora etc.
Dados Qualitativos (ou categóricos):
dividem-se em nominal ou ordinal. por exemplo, onde determinada pessoa mora. Quando há uma ordem desses dados, chamamos de qualitativo ordinal, um exemplo é a escolaridade: ensino fundamental, ensino médio, graduação, especialização, mestrado, doutorado. Percebe-se que há uma relação de grandeza
Dados Quantitativos (ou numéricos):
dividem-se intervalar ou razão. Intervalar é como se fosse a temperatura em graus Celsius, que pode ter valores negativos e positivos; e a razão seria a temperatura em Fahrenheit, que começa a partir do zero absoluto.
Dado nominal
seria a cor de cabelo e dado ordinal seria a hierarquia de uma empresa.
Ex.: conjunto de dados – Hospital.
DADO Quantitativo discreto:
os valores quantitativos , são valores inteiros. Exemplo: 28, 18 e 49.
Quantitativo contínuo:
são os números reais, como a temperatura, que tem valores após a vírgula.
Os Requisitos Funcionais do Usuário
Transferência de dados ;
Transformação de dados ;
Armazenamento de dados ;
Recuperação de dados;
Requisitos do usuário :
Restrições de Qualidade ;
Restrições Organizacionais ;
Restrições Ambientais ;
Restrições de Implementação;
A transformação do esquema de tabela não normalizada em um esquema relacional na primeira forma normal (1FN) consiste
da eliminação das tabelas aninhadas.
Primeira Forma Normal (1FN) O objetivo é
retirar os atributos ou grupos repetitivos.
O business intelligence é responsável por utilizar estrategicamente
dados nas organizações a partir da coleta, tratamento e análise de todo e qualquer tipo de informação relevante, possibilitando as melhores decisões para os negócios.
O processo de BI se baseia na
transformação de dados em informações, depois em decisões e, por fim, em ações.
O processo de transformação de dados pode exigir que dados logicamente relacionados, mas fisicamente separados,
sejam recompostos, ainda que envolvam registros distintos ou até mesmo estejam em bancos de dados operacionais distintos.
ANALYTICS
É o momento em que são criados os modelos, resposável pela modelagem do processo.
Analytics, em sua definição mais formal, refere-se ao uso
aplicado de dados, análises e raciocínio sistemático para seguir em um processo de tomada de decisão muito mais eficiente.
Técnicas Utilizadas no Analytics
- Aprendizado de máquina.
- Mineração de dados.
- Modelagem estatística.
Dados estruturados:
são as tabelas com campos bem definidos.
Dados não estruturados:
não é possível extrair uma informação que o identifique. Exemplo: uma imagem.
Dados semi-estruturados:
são dados em que existe uma certa organização, mas não se trata de uma tabela fixa com os valores fixos. Exemplo: Xml.
A Analytics possui três etapas.
Análise Exploratória; Modelagem de Dados; Construção de Relatórios;
Análise Exploratória
- Manuseio de possíveis dados incompletos;
- Verificação dos pontos fora da curva;
- Inserção de dados no sistema.
Modelagem de Dados
Criação de regras para os diferentes tipos de análises a se realizar.
Gerenciamento de Dados (Big Data)
- Adquirir e gravar;
- Extrair, limpar e anotar;
- Integrar, agregar e representar.
Ciclo de Vida Analytics
o ciclo começa com a identificação do problema de negócio. Depois, os dados são preparados, explorados e transformados. Em seguida, faz-se a modelagem, o modelo é validado, implantado e, após a implantação, o modelo é monitorado.
O termo Big Data Analytics refere-se aos poderosos _____ que tratam dados _______ e ________ para transformá-los em informações úteis às organizações, permitindo-lhes analisar dados, como registros de call center, postagens de redes sociais, de blogs, dados de CRM e demonstrativos de resultados.
softwares; estruturados e não estruturados;
O big data analytics difere do business intelligence por ….
analisar o que já existe e o que está por vir, apontando novos caminhos. Em BI há uma modelagem dimensional dos dados gerando um data warehouse.
Aprendizado de Máquina
trata-se da capacidade de treinar uma máquina com base em um gigantesco banco de dados para que a máquina seja capaz de reconhecer padrões e classificar automaticamente os dados de modo a aperfeiçoar determinado processo.
A inteligência artificial consiste em
dotar as máquinas de níveis sofisticados de raciocínio.
A inteligência artificial agrupa conceitos como…
aprendizado de máquina, robótica e mineração de dados, realizando processos estatísticos para analisar dados.
Aprendizado de Máquina
“Um sistema de aprendizado [supervisionado] é um programa de computador que toma decisões baseadas na experiência contida em exemplos solucionados com sucesso”.
Aprendizado de Máquina Tarefas Descritivas:
- Busca-se o desenvolvimento de algoritmos que descreverão os dados. * Exemplo: agrupamento.
Aprendizado de Máquina Tarefas Preditivas:
- Fazem previsões de alguma coisa a partir de uma entrada de dados.
- Podem ser divididas em tarefas de classificação e tarefas de regressão.
Paradigmas de Aprendizado de Máquina
Simbólico; Protótipo ou Memorização (Instance Based); Conexionista; Estatístico;
Paradigmas de Aprendizado de Máquina Simbólico.
Representação simbólica na forma de alguma expressão lógica, como árvores de decisão e regras.
Protótipo ou Memorização (Instance Based).
Sistema que classifica um exemplo por meio de exemplos similares conhecidos.
Paradigmas de Aprendizado de Máquina Conexionista:
Redes neurais, as quais envolvem unidades altamente interconectadas.
Paradigmas de Aprendizado de Máquina Conexionista (Genético):
Um classificador genético consiste de uma população de elementos de classificação
que competem para fazer a predição.
Paradigmas de Aprendizado de Máquina Estatístico:
Utilização de modelos estatísticos para encontrar uma boa aproximação do conceito induzido. destacam-se os de aprendizado Bayesiano, que utilizam um modelo probabilístico baseado no conhecimento prévio do problema, o qual é combinado com os exemplos de treinamento para determinar a probabilidade final de uma hipótese.
No aprendizado supervisionado, os exemplos estão_________.
rotulados, isto é, a classe é conhecida.
no aprendizado não supervisionado não existe uma classe _____.
associada
No aprendizado supervisionado ocorrem problemas de__________ e ___________.
regressão e classificação.
Os exemplos estão rotulados quando a saída é ___________. Tratam-se de diversos atributos de entradas que resultam em uma saída (x1, x2, x3, xn = y1).
conhecida;
Seguindo o exemplo do classificador de pessoas, o modelo que possui a saída esperada com base nas informações de uma pessoa que já recebeu crédito no passado, tem-se o ___________.
aprendizado supervisionado
Quando não se tem tais informações acerca dos precedentes duma pessoa, então o aprendizado não é______.
supervisionado
Tipos de sistemas de aprendizado de maquina Não Simbólico ou Caixa-preta:
– Não facilmente interpretado por humanos.
– Própria representação de conceitos.
– Não fornece esclarecimento ou explicação sobre o processo de classificação.
Tipos de sistemas de aprendizado de maquina Simbólico ou Orientado a conhecimento:
Cria estruturas simbólicas que podem ser compreendidas por seres humanos.
– ”Os resultados da indução devem ser descrições simbólicas das entidades dadas…
o teste caixa-preta indica a __________ acerca do processo que ocorre após a entrada dos dados.
falta de conhecimento.
Aprendizado de Máquina Indutor:
Programa que gera uma hipótese (classificador) a partir de um conjunto de exemplos.
Aprendizado de Máquina Exemplo, caso ou registro (instance):
É um conjunto fixo de atributos.’
Aprendizado de Máquina Atributo ou campo (feature):
Uma única característica de um exemplo.
Aprendizado de Máquina Domínio:
Conjunto de valores que um atributo pode assumir.
Aprendizado de Máquina Classe:
Atributo especial que descreve o fenômeno de interesse (somente no Aprendizado
Supervisionado).
atributo Nominal
o atributo assume valores em um conjunto finito, sendo que alguns indutores podem também aceitar uma subdivisão entre
os atributos nominais.
atributo Ordenado:
o domínio é ordenado, mas a diferença absoluta dos valores é desconhecida (ex.: escala de temperatura: baixa, média, alta ou severidade de um machucado).
atributo Não ordenado:
não existe uma ordem entre os valores.
atributo Contínuo:
o domínio é ordenado e pode ser representado por um valor real.
aula 2.2 pag 5
O QUE É UM CLASSIFICADOR ?
(hipótese ou descrição de conceito) de forma que, dado um novo exemplo, ele possa
predizer precisamente sua classe.
O melhor classificador é aquele que mais se aproxima da ________.
função real.
No aprendizado de máquina o que é utilizado para identificar saídas.
funções
- Bias:
qualquer critério de preferência de uma hipótese sobre outra (além da consistência com os exemplos).
- Um indutor é instável
se uma pequena perturbação (variação) no conjunto de treinamento pode causar modificação no classificador gerado.
- Um indutor é estável
se o classificador gerado não muda muito caso os exemplos de treinamento se alterem.
O indutor não incremental
recebe todo o conjunto de treinamento para resultar em um classificador.
indutor incremental
precisa ser trabalhado exemplo a exemplo.
Overfitting (overtraining):
- A hipótese extraída a partir dos exemplos é muito específica para o conjunto de
treinamento.
Underfitting (pouco treino):
A hipótese induzida apresenta um desempenho ruim tanto no conjunto de treinamento como de teste.
– Poucos exemplos representativos foram dados ao sistema de aprendizado (ex.:
algoritmos de árvores de decisão ou de indução de regras).
Pergunta: O que é a matriz de confusão?
Resposta: É uma tabela que permite visualizar o desempenho de um algoritmo de classificação.
Pergunta: Em quais tipos de problemas a matriz de confusão é utilizada?
Resposta: A matriz de confusão é utilizada em problemas de classificação, onde a saída do modelo é uma classe ou rótulo.
Pergunta: Qual é um exemplo de aplicação da matriz de confusão?
Resposta: Um exemplo é avaliar se um tumor é cancerígeno ou não.
Pergunta: O que a matriz de confusão indica?
Resposta: A matriz de confusão indica a quantidade de acertos e erros do modelo.
Pergunta: Como a matriz de confusão organiza os resultados?
Resposta: A matriz de confusão organiza os resultados em uma tabela com quatro células: verdadeiro positivo, verdadeiro negativo, falso positivo e falso negativo.
Em soluções de IA, a tecnologia que possui a capacidade de melhorar o desempenho na realização de alguma tarefa por meio da experiência usando dados de treinamento, podendo ser supervisionado ou não, é o(a):
Aprendizado de Máquina (Machine Learning).
O tipo de aprendizado máquina, que consiste em treinar um sistema a partir de dados que não estão rotulados e/ou classificados e utilizar algoritmos que buscam descobrir padrões ocultos que agrupam as informações de acordo com semelhanças ou diferenças, é denominado
não supervisionado.