Principios da Analise De Dados Flashcards

1
Q

Dados

A

Estruturados e semi estruturados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Dados semi estruturados

A

Xml
Json
Csv

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Tipos de dados

A

Dados qualitativos (categoricos) - nominal e ordinal

Dados quantitativos (numericos)
Intervalar e razão

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Discretizacao de dados

A

Atributos numericos - dividindo o domínio do atributo em intervalos para que que haja um número limitado de estados possíveis.

Naive Bayes não pode usar colunas contínuas como entrada e não pode
prever valores contínuos.

Transformar um problema contínuo infinito em discreto finito

Melhor relação sinal ruído

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

A organização de dados estruturados é totalmente aberta

A

Errado , dados estruturados mais rígidos, tabulares.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Dados não estruturados são aqueles que, desde a elaboração da estrutura, são pensados estritamente com uma finalidade

A

Errado

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Dados estruturados e semiestruturados são tipo de big data, enquanto os dados não estruturados não se enquadram nos requisitos para Big data.

A

Errado.

Dados estruturados, semiestruturados e não estruturados podem todos fazer parte do conceito de Big Data. O Big Data se refere ao grande volume, variedade e velocidade de geração de dados, independentemente de estarem organizados (estruturados) ou não (não estruturados). Os dados semiestruturados, como arquivos JSON ou XML, e os não estruturados, como imagens, vídeos e textos, também fazem parte do Big Data, uma vez que o conceito engloba qualquer tipo de dado que seja volumoso e complexo, demandando tecnologias avançadas para processamento e análise.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

dados de redes sociais são exemplos de dados não estruturados. certo ou errado

A

Certo.

Dados de redes sociais, como postagens de texto, imagens, vídeos, comentários e interações, são exemplos de dados não estruturados. Eles não seguem um formato rígido ou uma estrutura organizacional pré-definida, o que os caracteriza como não estruturados. Esses dados exigem técnicas avançadas de análise, como processamento de linguagem natural (NLP) e reconhecimento de imagem, para serem processados e extraídos insights.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

bussines inteligence o que é?

A

Business Intelligence (BI) é o conjunto de processos, tecnologias, ferramentas e práticas voltadas para a coleta, análise, interpretação e apresentação de dados empresariais com o objetivo de auxiliar na tomada de decisões estratégicas. O BI transforma dados brutos em informações úteis, oferecendo insights sobre o desempenho da empresa, tendências de mercado, comportamento de clientes, eficiência operacional e outras áreas críticas.

As principais funções do BI incluem:

Coleta de dados: Agrega informações de várias fontes, como bancos de dados, planilhas, sistemas de ERP e dados externos.

Processamento e análise: Utiliza ferramentas e técnicas para organizar e analisar os dados, muitas vezes aplicando análises estatísticas e previsões.

Visualização: Cria relatórios, dashboards (painéis de controle) e gráficos interativos para facilitar a interpretação dos dados pelos tomadores de decisão.

Tomada de decisão: Com base nos insights gerados, a empresa pode otimizar operações, identificar novas oportunidades e ajustar estratégias.

Ferramentas populares de BI incluem Power BI, Tableau, QlikView e outras plataformas que permitem a criação de relatórios visuais e interativos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

ETL o que significa

A

Extract, transform, load

ETL significa Extract, Transform, Load (Extração, Transformação, Carga). É um processo usado em sistemas de Business Intelligence e Data Warehousing para mover dados de diversas fontes para um repositório central, como um banco de dados ou data warehouse, onde podem ser analisados e processados.

Extract (Extração): Consiste em coletar dados de diferentes fontes, que podem ser bancos de dados, sistemas legados, arquivos CSV, APIs ou outras fontes de dados. O objetivo é reunir todas as informações relevantes de maneira eficiente.

Transform (Transformação): Após a extração, os dados são convertidos para um formato adequado para análise. Isso pode incluir limpeza de dados, padronização, remoção de duplicatas, conversão de tipos de dados e até mesmo agregação e cálculos para tornar os dados mais consistentes e úteis.

Load (Carga): Após a transformação, os dados são carregados em um sistema de armazenamento, como um data warehouse ou data lake, onde ficam disponíveis para consultas, relatórios e análises.

O processo ETL é fundamental para a criação de pipelines de dados que alimentam sistemas de Business Intelligence e ajudam a transformar dados brutos em insights acionáveis.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Data warehouse?

A

Um Data Warehouse (Armazém de Dados) é um sistema de armazenamento de dados projetado para centralizar, organizar e consolidar grandes volumes de informações provenientes de diversas fontes. Ele é utilizado para análise, relatórios e suporte à tomada de decisões estratégicas dentro de uma organização.

Principais características de um Data Warehouse:

Integração de dados: Reúne dados de várias fontes, como sistemas transacionais, bancos de dados, planilhas e dados externos, permitindo que sejam analisados de forma unificada.

Orientado por assunto: Organiza os dados em torno de temas ou áreas específicas de interesse da empresa, como vendas, finanças ou marketing.

Histórico: Armazena grandes volumes de dados históricos, permitindo análises ao longo do tempo, detecção de tendências e previsões.

Imutabilidade: Os dados no Data Warehouse geralmente não são alterados após serem carregados, permitindo uma visão precisa e consistente do histórico de transações e operações.

Desempenho otimizado para consultas: Projetado para fornecer respostas rápidas a consultas complexas e relatórios analíticos, diferentemente dos sistemas transacionais, que são otimizados para lidar com muitas transações simultâneas.

Um Data Warehouse é geralmente usado em conjunto com ferramentas de Business Intelligence (BI) para facilitar a análise de dados e gerar relatórios estratégicos, fornecendo insights valiosos para a gestão e otimização dos negócios.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quais são as operações principais do data warehouse?

A

As principais operações do Data Warehouse estão relacionadas ao processamento, organização e análise de grandes volumes de dados. Essas operações ajudam os usuários a extrair insights e realizar consultas analíticas de forma eficiente. Aqui estão as principais operações:

  1. Roll-up (Subir nível de agregação)
    Descrição: A operação de roll-up agrega os dados a um nível mais alto de abstração, reduzindo o detalhamento. Por exemplo, ao invés de visualizar as vendas por dia, um roll-up pode agrupar as vendas por mês ou por ano.
    Exemplo: Agregar as vendas diárias em totais mensais.
  2. Drill-down (Descer nível de agregação)
    Descrição: É o oposto de roll-up. Com drill-down, você detalha os dados, aumentando o nível de granularidade. Isso permite que o analista explore informações mais detalhadas, como passar de vendas anuais para vendas mensais ou diárias.
    Exemplo: Desagregar as vendas mensais em vendas diárias ou até por hora.
  3. Slice (Fatiar)
    Descrição: A operação de slice envolve selecionar uma fatia específica dos dados com base em uma dimensão. Isso é útil para visualizar uma “fatia” específica do conjunto de dados multidimensional.
    Exemplo: Analisar apenas as vendas de um único mês ou de uma região específica.
  4. Dice (Cubo de dados)
    Descrição: O dice é uma operação mais avançada que seleciona múltiplas fatias em várias dimensões. Ela permite criar subconjuntos de dados com base em múltiplos critérios.
    Exemplo: Visualizar as vendas durante os meses de janeiro e fevereiro em todas as lojas de uma determinada região.
  5. Pivot (Rotação de eixos)
    Descrição: Também conhecida como rotate, a operação de pivot reorienta os dados para fornecer diferentes perspectivas. Basicamente, ela troca as dimensões que estão sendo analisadas, permitindo visualizar os dados de diferentes ângulos.
    Exemplo: Trocar a visualização de vendas por produto para vendas por região.
  6. Drill-across (Consulta cruzada)
    Descrição: Envolve a consulta de dados em dois ou mais cubos de dados diferentes, permitindo análises entre diferentes áreas ou contextos.
    Exemplo: Comparar as vendas com os custos operacionais de diferentes períodos.
  7. Drill-through
    Descrição: Permite aos usuários acessar dados de nível mais detalhado que estão armazenados em um banco de dados transacional ou operacional. É uma maneira de “perfurar” o Data Warehouse para obter mais detalhes.
    Exemplo: Do nível de agregação de vendas mensais, detalhar até o nível de transações individuais de vendas.
    Essas operações fornecem flexibilidade e profundidade na análise dos dados, permitindo que os usuários manipulem e extraiam insights valiosos do Data Warehouse em diferentes níveis de agregação e detalhamento.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Big data 5 V

A

Os 5 Vs do Big Data são os principais pilares que caracterizam os desafios e as oportunidades do uso de grandes volumes de dados. Eles ajudam a definir o que torna os dados do Big Data únicos em relação a outros tipos de dados. São eles:

Volume: Refere-se à quantidade massiva de dados gerados e armazenados, que pode vir de diversas fontes, como redes sociais, dispositivos IoT, sensores, transações comerciais, etc. O volume dos dados no Big Data é tão grande que as soluções tradicionais de armazenamento e processamento não são suficientes para lidar com eles de maneira eficiente.

Variedade: Refere-se à diversidade de tipos de dados que são gerados. Isso inclui dados estruturados (bancos de dados relacionais), semiestruturados (arquivos JSON ou XML) e não estruturados (imagens, vídeos, textos de redes sociais). Lidar com essa variedade exige ferramentas e técnicas capazes de integrar e processar diferentes formatos de dados.

Velocidade: Trata-se da rapidez com que os dados são gerados, transmitidos e processados. No Big Data, a velocidade com que os dados precisam ser capturados e analisados é crucial, especialmente para informações em tempo real, como dados de sensores, transações financeiras ou interações online.

Veracidade: Refere-se à confiabilidade e à qualidade dos dados. Como o Big Data envolve grandes volumes de dados de diversas fontes, pode haver inconsistências, dados incompletos ou incorretos. A veracidade está relacionada ao desafio de garantir a precisão e a relevância dos dados analisados.

Valor: O valor é o mais importante dos “Vs”. Ele trata da capacidade de extrair insights e informações úteis a partir dos dados. De nada adianta coletar grandes volumes de dados se eles não proporcionarem valor para a empresa ou não ajudarem na tomada de decisões estratégicas.

Esses cinco Vs são os fundamentos para trabalhar com Big Data, representando os principais desafios e benefícios do uso de grandes volumes de dados em diversos setores.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Data warehouse

Pivot

A

Rotação -
Visão produto
Visão vendas
Visão período

Deferentes visualizações dos dados
Mudança de hierarquia
Troca de dimensões
Linha e colunas invertidas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Data warehouse

Slice

A

RJ (local fixado)
Vendas produtos
Qualquer período

Uma dimensão selecionada / fixada
Recupera valores das outras dimensões
Geralmente bidimensional
Fatia

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Data warehouse

Dice - d de “duas”

A

RJ (local fixado)
Água de Coco (fixado)
Carnaval ( fixado)

Duas ou mais dimensões fixadas
Recupera valores das outras dimensões
Geralmente tridimensional subcubo
Do cubo
Redução do escopo dos dados em análise

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Data warehouse

Drill Down

A

Ano
Mês
Dia

Aumenta o nível de detalhe
Diminui o nível de granularidade
Menos agregado

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Data warehouse

Roll up
Drill up

A

Dia
Mês
Ano

Diminui o nível de detalhe
Aumenta o nível de granularidade
Mais agregado/ sumarizado

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Data warehouse

Drill Across

A

Ano
Dia

Pula nível dentro de uma dimensão

Relaciona mais de uma tabela fato usando dimensões compartilhadas

20
Q

Data warehouse

Drill through

A

Água de cocô
Carnaval

Dados de outra estrutura

Inexistente hierarquia entre dimensões
Além da granularidade existente
T de two - migração entre duas dimensões ou mais dimensões

21
Q

diferença do data lake pro data warehouse?

A

A principal diferença entre Data Lake e Data Warehouse está na maneira como os dados são armazenados, processados e utilizados. Ambos são usados para armazenar grandes volumes de dados, mas têm propósitos, estruturas e características distintas:

  1. Estrutura dos Dados:
    Data Warehouse: Armazena dados estruturados e pré-processados. Antes de os dados serem carregados no Data Warehouse, eles passam por um processo de ETL (Extração, Transformação e Carga) para serem organizados de acordo com esquemas ou tabelas bem definidos. É ideal para análises de dados estruturados e relatórios empresariais.
    Data Lake: Armazena dados em seu formato bruto, ou seja, não estruturados, semiestruturados e estruturados. Não há necessidade de transformar os dados antes de armazená-los. Eles são armazenados como estão e podem ser processados e analisados posteriormente. Exemplos incluem vídeos, imagens, logs de eventos e dados de sensores.
  2. Finalidade:
    Data Warehouse: Destina-se a fornecer insights de negócios e relatórios. É otimizado para análise e consulta de dados pré-processados, sendo amplamente utilizado em ambientes de Business Intelligence (BI).
    Data Lake: É mais flexível, podendo armazenar dados para diversas finalidades, desde análises de dados até machine learning, passando por processamento de grandes volumes de dados em diferentes formatos.
22
Q

diferença entre banco de dados relacional e nosql

A

A principal diferença entre um banco de dados relacional e um banco de dados NoSQL está no modo como os dados são estruturados, armazenados e acessados. Eles são usados para diferentes tipos de aplicações e necessidades de armazenamento de dados. Aqui estão as diferenças mais importantes:

  1. Modelo de Dados:
    Banco de Dados Relacional: Utiliza um modelo tabular baseado em tabelas com linhas e colunas. Os dados são organizados em tabelas relacionadas entre si por meio de chaves primárias e chaves estrangeiras. O formato é altamente estruturado, e os dados seguem um esquema rígido, com regras de integridade.
    Banco de Dados NoSQL: Não usa tabelas, e os dados podem ser armazenados de várias maneiras, dependendo do tipo de NoSQL. Os formatos comuns incluem:
    Documentos (JSON, BSON)
    Chave-valor
    Colunas largas
    Grafos O NoSQL é mais flexível, permitindo dados sem um esquema fixo.
  2. Esquema (Schema):
    Banco de Dados Relacional: Tem um esquema rígido, o que significa que a estrutura dos dados deve ser definida antecipadamente. Cada tabela tem um conjunto fixo de colunas, e o tipo de dados de cada coluna é definido previamente.
    Banco de Dados NoSQL: Geralmente segue o princípio de esquema flexível ou esquema dinâmico. Isso permite que os dados sejam armazenados sem uma estrutura predefinida, ou seja, você pode adicionar ou remover atributos facilmente sem precisar alterar toda a estrutura do banco.
  3. Consultas e Linguagem de Consulta:
    Banco de Dados Relacional: Utiliza SQL (Structured Query Language) para realizar consultas e manipulações de dados. SQL é uma linguagem padrão para bancos de dados relacionais, com uma sintaxe clara e poderosa para realizar consultas complexas.
    Banco de Dados NoSQL: Não utiliza SQL como padrão (apesar de algumas soluções NoSQL possuírem implementações SQL-like). Cada tipo de banco NoSQL tem sua própria forma de realizar consultas, que geralmente são específicas para seu modelo de dados. Exemplo: No MongoDB, as consultas são feitas usando comandos em JSON.
  4. Escalabilidade:
    Banco de Dados Relacional: Geralmente oferece escalabilidade vertical, o que significa que, para melhorar o desempenho, é necessário aumentar a capacidade do servidor (mais CPU, mais memória, etc.). Bancos de dados relacionais podem ser mais desafiadores para escalar horizontalmente (distribuir entre vários servidores).
    Banco de Dados NoSQL: Oferece escalabilidade horizontal nativa, permitindo que os dados sejam facilmente distribuídos entre vários servidores ou nós. Isso é útil para lidar com grandes volumes de dados e altas taxas de acesso em sistemas distribuídos.
  5. Transações e Consistência:
    Banco de Dados Relacional: Segue o modelo ACID (Atomicidade, Consistência, Isolamento e Durabilidade), que garante transações seguras, consistentes e com integridade. É ideal para aplicações que exigem operações transacionais seguras (como bancos ou sistemas financeiros).
    Banco de Dados NoSQL: Geralmente segue o modelo BASE (Basicamente Disponível, Estado Flexível e Eventual Consistência), o que significa que os dados podem não estar imediatamente consistentes em todos os nós, mas eventualmente ficarão. Isso permite maior flexibilidade e desempenho, especialmente em sistemas distribuídos.
  6. Casos de Uso:
    Banco de Dados Relacional: Adequado para aplicações que exigem estrutura e integridade de dados rígidas, como sistemas financeiros, ERP, CRM, ou qualquer aplicação que dependa fortemente de relações entre dados e transações complexas.
    Banco de Dados NoSQL: Ideal para aplicações que precisam lidar com grandes volumes de dados não estruturados ou semiestruturados, como redes sociais, big data, sistemas de recomendação, e aplicações que precisam de alta escalabilidade e flexibilidade de armazenamento.
  7. Exemplos:
    Bancos de Dados Relacionais: MySQL, PostgreSQL, Oracle, Microsoft SQL Server.
    Bancos de Dados NoSQL: MongoDB (baseado em documentos), Cassandra (baseado em colunas), Redis (chave-valor), Neo4j (baseado em grafos).
23
Q

Nosql teorema CAP, explique?

A

O teorema CAP é um princípio fundamental na computação distribuída, proposto por Eric Brewer no início dos anos 2000. Ele descreve as limitações e trocas necessárias para sistemas distribuídos, especialmente no contexto de bancos de dados NoSQL. O teorema CAP afirma que, em um sistema distribuído, é impossível garantir simultaneamente as três seguintes propriedades:

Consistência (Consistency): Todos os nós de um sistema distribuído veem os mesmos dados ao mesmo tempo. Se um dado é atualizado em um nó, essa atualização deve ser imediatamente visível em todos os outros nós.

Disponibilidade (Availability): O sistema garante que toda solicitação de leitura ou gravação receberá uma resposta, mesmo que seja a mais recente ou não. Ou seja, o sistema sempre está disponível para processar uma solicitação.

Tolerância a Partições (Partition Tolerance): O sistema continua funcionando, mesmo que ocorram falhas de rede ou que alguns nós não possam se comunicar com outros. Em outras palavras, o sistema pode lidar com “partições” na rede que o separam temporariamente.

O Dilema do CAP
De acordo com o teorema CAP, um sistema distribuído só pode fornecer dois dos três aspectos ao mesmo tempo. Isso significa que, quando ocorre uma falha de rede (partição), o sistema deve fazer uma escolha entre:

Consistência e Disponibilidade:
Se o sistema priorizar consistência, ele pode rejeitar algumas solicitações para garantir que todos os nós tenham os mesmos dados.
Se o sistema priorizar disponibilidade, ele pode permitir respostas, mas com dados que podem não ser os mais recentes.
NoSQL e CAP
Muitos bancos de dados NoSQL fazem diferentes escolhas baseadas no teorema CAP:

Cassandra: privilegia Disponibilidade e Tolerância a Partições (AP), relaxando a consistência.
MongoDB: tende a ser configurável, permitindo diferentes combinações de Consistência e Disponibilidade, dependendo do cenário.
HBase: prioriza Consistência e Tolerância a Partições (CP), potencialmente sacrificando a disponibilidade em caso de falha de rede.
Em resumo, o teorema CAP ajuda a entender as limitações e compensações em sistemas distribuídos e por que é necessário priorizar certos aspectos em detrimento de outros, especialmente quando se trata de bancos de dados NoSQL.

24
Q

Bancos relacionais

A

ACID
● Consistência / integridade referencial
● SQL
● Normalização
● Ferramentas
● Know How
● Atende à maioria dos problemas
● escalabilidade vertical
● fácil de gerencial
● backups facilitados

25
Q

NoSQL

A

BigData
● dados distribuídos
● escalabilidade horizontal
● sharding por default
● diferentes formatos
● schema free
● ausência de SQL
● ACID vs escalabilidade
● iOT
● velocidade de acesso
● full text search
● cluster de dados
● integridade nem sempre será possível
● baixo know how

26
Q

Nosql

A

Key value
Graph DB
Column family
Document

27
Q

Uma organização deseja implementar um software para lidar com seus documentos e que deve ter como
característica principal a variação dos campos descritivos de acordo com os vários tipos de documentos.
Essa necessidade específica levou a organização a escolher um banco de dados NoSQL.

A

uso de esquemas flexíveis

28
Q

Análise Descritiva

A

A análise descritiva tem o objetivo de entender o que aconteceu no passado ou está acontecendo no presente. Ela se concentra em sumarizar os dados históricos ou atuais para obter uma visão clara dos padrões e tendências. Normalmente, as técnicas usadas incluem estatísticas básicas, visualizações de dados (gráficos, tabelas) e indicadores de desempenho.

Pergunta chave: O que aconteceu?
Ferramentas e técnicas:
Tabelas e gráficos (barras, linhas, pizza)
Indicadores de performance (KPIs)
Média, mediana, moda, variância
Sumário de dados
Exemplo: Um relatório de vendas mensais que mostra o volume de vendas em diferentes regiões ou segmentos de clientes.

29
Q

Análise Preditiva

A

A análise preditiva utiliza técnicas estatísticas, machine learning e modelagem para prever eventos ou comportamentos futuros com base em dados históricos. Essa análise tenta identificar padrões que possam indicar como o futuro pode se comportar. Ela é amplamente usada para prever tendências, comportamentos de clientes ou resultados em mercados específicos.

Pergunta chave: O que provavelmente vai acontecer?
Ferramentas e técnicas:
Regressão linear e logística
Algoritmos de machine learning (árvores de decisão, redes neurais)
Séries temporais
Modelos de classificação e predição
Exemplo: Um modelo que prevê as vendas futuras com base em dados de vendas anteriores, sazonalidade e outras variáveis, ou prever a probabilidade de um cliente deixar um serviço (churn).

30
Q

Análise Preditiva

A

A análise preditiva utiliza técnicas estatísticas, machine learning e modelagem para prever eventos ou comportamentos futuros com base em dados históricos. Essa análise tenta identificar padrões que possam indicar como o futuro pode se comportar. Ela é amplamente usada para prever tendências, comportamentos de clientes ou resultados em mercados específicos.

Pergunta chave: O que provavelmente vai acontecer?
Ferramentas e técnicas:
Regressão linear e logística
Algoritmos de machine learning (árvores de decisão, redes neurais)
Séries temporais
Modelos de classificação e predição
Exemplo: Um modelo que prevê as vendas futuras com base em dados de vendas anteriores, sazonalidade e outras variáveis, ou prever a probabilidade de um cliente deixar um serviço (churn).

31
Q

Análise Prescritiva

A

A análise prescritiva vai além da previsão e sugere ações ou decisões ótimas com base nos dados. Ela não apenas prevê o que vai acontecer, mas também fornece recomendações sobre o que deve ser feito para alcançar o melhor resultado possível. Essa análise geralmente requer a combinação de simulações, otimização e técnicas de machine learning.

Pergunta chave: O que deve ser feito?
Ferramentas e técnicas:
Simulações (Monte Carlo, análise de cenários)
Otimização matemática
Modelagem de decisão
Algoritmos de aprendizado de reforço
Exemplo: Um sistema de recomendação que sugere o melhor conjunto de ações para maximizar os lucros, como definir preços dinâmicos ou otimizar a alocação de recursos em uma cadeia de suprimentos.

32
Q

Tipos de analises

A

Análise Descritiva: Foca no passado e presente, responde “O que aconteceu?”.
Análise Preditiva: Tenta prever o futuro, responde “O que provavelmente vai acontecer?”.
Análise Prescritiva: Sugere ações futuras, responde “O que deve ser feito?”.

33
Q

Tipos de analises

A

Análise Descritiva: Foca no passado e presente, responde “O que aconteceu?”.
Análise Preditiva: Tenta prever o futuro, responde “O que provavelmente vai acontecer?”.
Análise Prescritiva: Sugere ações futuras, responde “O que deve ser feito?”.

34
Q

Análise Exploratória

A

resumir as características de um dataset usando meios visuais
● responsabilidade do profissional que faz a análise /
intransferível
● Técnicas: histograma, pareto, PCA, dispersão

35
Q

Análise Exploratória

A

transformar os dados em informações que possam ser
consumidas por um público

36
Q

CRISP DM
Bussines Understanding
Entendimento do negócio

A

Determinar os objetivos
Conhecer a situação
Produzir um plano de Projeto

37
Q

CRISP DM
DATA UNDERSTANDING
Entendimento dos dados

A

Coletar os dados iniciais
Descrever os dados
Explorar os dados
Verificar a qualidade dos dados

38
Q

CRISP DM
Data Preparation
PREPARAÇÃO DOS DADOS

A

Selecionar os dados
Limpar os dados
Construir os dados
Integrar os dados
Formatar os dados
Descrição da base

39
Q

CRISP DM
MODELING
CONSTRUCAO DO MODELO

A

Seleção de técnicas
Projeto de testes
Construção do modelo
Ajuste do modelo

40
Q

CRISP DM
EVALUATION
TESTE de Avaliação

A

Avaliação dos resultados
Revisao do processo
Determinar os próximos passos

41
Q

CRISP DM
DEPLOYMENT
IMPLANTAÇÃO

A

Planejar a entrega
Planejar o monitoramento e a manutenção
Produzir um relatório final
Lições aprendidas

42
Q

No modelo CRISP-DM (cross-industry standard process for data mining), a
etapa que consiste em identificar se o modelo escolhido está apto a cumprir
os objetivos definidos na primeira etapa, o entendimento do negócio, é
denominada

A

Avaliação

43
Q

data cleansing

A

Data Cleansing (ou limpeza de dados) é o processo de identificar e corrigir dados incorretos, incompletos, duplicados ou inconsistentes em um conjunto de dados. O objetivo principal da limpeza de dados é melhorar a qualidade e confiabilidade dos dados, assegurando que as análises e decisões baseadas neles sejam precisas e válidas.

Principais etapas do Data Cleansing:
Identificação de dados ausentes: Verificar se há valores faltantes (missing values) nos dados e tomar decisões para preenchê-los, removê-los ou imputá-los (usando a média, mediana ou algoritmos específicos).

Remoção de duplicatas: Identificar e remover registros duplicados, que podem distorcer os resultados da análise ou criar redundância.

Correção de erros: Encontrar e corrigir erros de digitação, formatação inadequada ou entradas incorretas, como dados numéricos fora de um intervalo esperado ou texto mal formatado.

Tratar inconsistências: Corrigir inconsistências nos dados, como variações no formato de campos (datas em diferentes formatos, abreviações de categorias, etc.).

Normalização: Padronizar os dados, garantindo que todas as entradas estejam em um formato consistente, como unidades de medida, valores numéricos ou categóricos.

Remoção de outliers (valores extremos): Identificar valores que estejam muito fora do padrão esperado e decidir se devem ser removidos ou tratados, dependendo do contexto da análise.

Validação dos dados: Verificar a integridade e consistência dos dados após a limpeza, certificando-se de que os ajustes realizados não comprometeram a veracidade ou a estrutura original.

Importância do Data Cleansing:
Melhora a precisão das análises e previsões, evitando distorções causadas por dados incorretos.
Reduz o custo e o tempo de processamento, já que dados limpos resultam em processos mais eficientes.
Aumenta a confiabilidade das decisões baseadas em dados.
Evita problemas em fases posteriores de um projeto de análise de dados, como a modelagem e a implementação de soluções baseadas em dados.

44
Q

data quality

A

Data Quality (ou Qualidade dos Dados) refere-se à medida em que os dados são precisos, completos, confiáveis, e consistentes em seu uso para suportar processos de negócios e análises. Dados de alta qualidade são essenciais para garantir que as decisões e os insights derivados deles sejam corretos e confiáveis.

Principais Dimensões da Qualidade dos Dados:
Precisão (Accuracy):

Os dados representam corretamente a realidade que pretendem descrever. Erros de digitação ou discrepâncias podem prejudicar a precisão.
Exemplo: Um número de telefone de um cliente registrado de forma incorreta seria um dado impreciso.
Completude (Completeness):

Refere-se à presença de todos os dados esperados ou necessários. Dados incompletos podem levar a análises imprecisas ou decisões inadequadas.
Exemplo: Um registro de cliente sem o campo de endereço preenchido.
Consistência (Consistency):

Os dados devem ser uniformes em diferentes sistemas ou bases de dados. Informações contraditórias sobre o mesmo objeto em sistemas diferentes indicam falta de consistência.
Exemplo: Se um banco de dados mostra uma data de nascimento diferente para o mesmo cliente em dois sistemas distintos, há inconsistência.
Atualidade (Timeliness):

Refere-se à atualização dos dados de acordo com a frequência necessária. Dados desatualizados podem gerar decisões erradas, especialmente em cenários dinâmicos.
Exemplo: Dados de estoque que não foram atualizados recentemente podem levar a problemas de reabastecimento.
Relevância (Relevance):

Os dados devem ser pertinentes para o propósito específico. Dados irrelevantes ou fora do contexto podem poluir as análises ou relatórios.
Exemplo: Coletar dados demográficos detalhados para uma análise que não exige essas informações.
Validade (Validity):

Refere-se à conformidade dos dados com as regras e formatos predefinidos. Os valores devem estar dentro de intervalos permitidos ou obedecer a padrões estabelecidos.
Exemplo: Um campo de e-mail que aceita entradas inválidas, como “abcd.com”, viola a validade.
Acessibilidade (Accessibility):

Os dados de qualidade precisam estar prontamente disponíveis para quem precisa utilizá-los. Dificuldades de acesso ou dados armazenados de maneira que não possam ser facilmente consultados podem impactar negativamente a análise.
Exemplo: Informações de clientes não estarem disponíveis para a equipe de suporte devido a restrições desnecessárias.

45
Q

Importância da Qualidade dos Dados:

A

Decisões informadas: Dados de alta qualidade fornecem uma base sólida para tomadas de decisão estratégicas e operacionais.
Eficiência operacional: Reduz retrabalho, correção de erros e atrasos, já que os dados estão corretos desde o início.
Confiabilidade: Garante que os insights derivados dos dados sejam confiáveis, aumentando a confiança de stakeholders e clientes.
Redução de custos: Minimiza os custos associados à má qualidade dos dados, como falhas em projetos, perda de clientes e problemas legais.

46
Q

Estratégias para Melhorar a Qualidade dos Dados:

A

Data Cleansing: Regularmente limpar e corrigir os dados, identificando e corrigindo erros.
Governança de Dados: Estabelecer políticas, processos e responsáveis pela gestão de dados para garantir a consistência e a conformidade.
Monitoramento Contínuo: Implementar ferramentas de monitoramento para rastrear a qualidade dos dados e identificar problemas em tempo real.
Treinamento e Educação: Capacitar os funcionários para inserir e manipular dados corretamente, evitando erros e inconsistências.
Dados de alta qualidade são fundamentais para garantir que análises, previsões e decisões estratégicas sejam eficazes, confiáveis e úteis.