DADOS Flashcards
Etapas da fluência em dados
- Ler: entender o que são os dados e quais aspectos do mundo eles representam;
- Trabalhar: criar, adquirir, limpar e gerenciar (o ciclo de vida dos) dados;
- Analisar: filtrar, classificar, agregar, comparar, fazer previsões e desempenhar outras
atividades analíticas com dados; - Argumentar: utilizar dados para apoiar uma narrativa com intuito de comunicar alguma mensagem a um público específico.
O processo de implantação da Data Literacy
- Identificar o nível de Data Literacy dos colaboradores.
- Deixar os dados disponíveis aos profissionais.
- Estimular e capacitar as pessoas
A governança de dados
controlar os dados, composta de:
* Armazenamento;
* Armazenamento analítico;
* Análise de dados;
* Visualização.
O armazenamento analítico de dados
é feito para dados que já passaram por alguma análise. São exemplos de sistemas para armazenamento analítico o Data Warehouse, o Data Mart e o HDFS.
A análise de dados Explícita:
- feita em dados de existência já conhecida;
A análise de dados Implícita:
- feita de dados que surgem no processo;
A análise de dados Exploratória:
- para conhecer dados;
A análise de dados Preditiva:
- para fazer previsões;
A análise de dados Prescritiva:
- para prescrever o melhor caminho
Pirâmide de Conhecimento
explica o caminho da produção de conhecimento a partir dos
dados.
Ciclo de Vida dos dados
Produção: Armazenamento:
Transformação: Análise de dados: Descarte:
A gestão de dados, por sua vez, é composta das seguintes etapas:
planejar; coletar; assegurar ; descrever ; preservar.
Tendências: da gestão de dados.
- Automação via software; Blackchain;
- Data lake; Machine Learning; Ética;
- Democratização; Dashboards;
- Nuvens distribuídas
Dashboards:
são painéis que permitem a visualização dos dados de modo a melhorar a experiência do usuário.
Uma organização que
lida com um grande volume de dados estruturados e não estruturados objetiva organizar esses dados para encontrar insights necessários para o negócio usando técnica, investindo na área de
Data Science;
O conhecimento é obtido a partir de um conjunto de informações inseridas em um mesmo e específico contexto.
F. Para obter conhecimento a partir de informações, é necessário que elas se refiram a contextos variados
O conhecimento serve para dar suporte ao processamento decisório; ele representa a informação
tratada, confiável e íntegra.
Normalização linear, também conhecida como normalização max- min, consiste em estabelecer uma nova base numérica de referência, obtida a partir do valor de máximo e mínimo global do conjunto utilizado, para cada dado de um conjunto de dados.
V
Os dados caracterizados como categorias sem ordem, como, por exemplo,
cachorro, cenoura, cebola, casa, também chamados de fatores, são categorias discretas e únicas sem ordem inerente.
Os boxplots podem ser usados para realizar análise de um estudo da
associação entre uma variável quantitativa e uma qualitativa.
As variáveis quantitativas discretas
são aquelas que assumem valores no conjunto dos números naturais, como o número de municípios brasileiros que recebem atualmente a programação de TV em sinal analógico, por exemplo. são representadas por números inteiros não negativos.
Dados estruturados são aqueles representados em um formato
estrito como, por exemplo, a informação armazenada nos bancos de dados.
A finalidade de um banco de dados é
armazenar os dados de forma segura, como, por exemplo, sobre determinados itens de interesse de uma organização.
Os dados armazenados em banco de dados podem ser:
ESTRUTURADOS, NÃO ESTRUTURADOS E SEMIESTRUTURADOS.
Dados Não estruturados:
São dados que não possuem uma organização rígida e não seguem uma estrutura padronizada. São totalmente flexível e dinâmica.
Dados Semiestruturados:
São dados que combinam estrutura rígida (ESTRUTURADOS) e dados que não possuem uma estrutura rígida (NÃOESTRUTURADOS)
O conhecimento serve para dar suporte ao processamento decisório; ele representa a
informação tratada, confiável e íntegra.
V
ATRIBUTOS DOS DADOS
informações sobre ele DADOS , como: o nome, idade, quantidade de filhos, o salário, onde trabalha, onde mora etc.
Dados Qualitativos (ou categóricos):
dividem-se em nominal ou ordinal. por exemplo, onde determinada pessoa mora. Quando há uma ordem desses dados, chamamos de qualitativo ordinal, um exemplo é a escolaridade: ensino fundamental, ensino médio, graduação, especialização, mestrado, doutorado. Percebe-se que há uma relação de grandeza
Dados Quantitativos (ou numéricos):
dividem-se intervalar ou razão. Intervalar é como se fosse a temperatura em graus Celsius, que pode ter valores negativos e positivos; e a razão seria a temperatura em Fahrenheit, que começa a partir do zero absoluto.
Dado nominal
seria a cor de cabelo e dado ordinal seria a hierarquia de uma empresa.
Ex.: conjunto de dados – Hospital.
DADO Quantitativo discreto:
os valores quantitativos , são valores inteiros. Exemplo: 28, 18 e 49.
Quantitativo contínuo:
são os números reais, como a temperatura, que tem valores após a vírgula.
Os Requisitos Funcionais do Usuário
Transferência de dados ;
Transformação de dados ;
Armazenamento de dados ;
Recuperação de dados;
Requisitos do usuário :
Restrições de Qualidade ;
Restrições Organizacionais ;
Restrições Ambientais ;
Restrições de Implementação;
A transformação do esquema de tabela não normalizada em um esquema relacional na primeira forma normal (1FN) consiste
da eliminação das tabelas aninhadas.
Primeira Forma Normal (1FN) O objetivo é
retirar os atributos ou grupos repetitivos.
O business intelligence é responsável por utilizar estrategicamente
dados nas organizações a partir da coleta, tratamento e análise de todo e qualquer tipo de informação relevante, possibilitando as melhores decisões para os negócios.
O processo de BI se baseia na
transformação de dados em informações, depois em decisões e, por fim, em ações.
O processo de transformação de dados pode exigir que dados logicamente relacionados, mas fisicamente separados,
sejam recompostos, ainda que envolvam registros distintos ou até mesmo estejam em bancos de dados operacionais distintos.
ANALYTICS
É o momento em que são criados os modelos, resposável pela modelagem do processo.