Principios da Analise De Dados Flashcards
Dados
Estruturados e semi estruturados
Dados semi estruturados
Xml
Json
Csv
Tipos de dados
Dados qualitativos (categoricos) - nominal e ordinal
Dados quantitativos (numericos)
Intervalar e razão
Discretizacao de dados
Atributos numericos - dividindo o domínio do atributo em intervalos para que que haja um número limitado de estados possíveis.
Naive Bayes não pode usar colunas contínuas como entrada e não pode
prever valores contínuos.
Transformar um problema contínuo infinito em discreto finito
Melhor relação sinal ruído
A organização de dados estruturados é totalmente aberta
Errado , dados estruturados mais rígidos, tabulares.
Dados não estruturados são aqueles que, desde a elaboração da estrutura, são pensados estritamente com uma finalidade
Errado
Dados estruturados e semiestruturados são tipo de big data, enquanto os dados não estruturados não se enquadram nos requisitos para Big data.
Errado.
Dados estruturados, semiestruturados e não estruturados podem todos fazer parte do conceito de Big Data. O Big Data se refere ao grande volume, variedade e velocidade de geração de dados, independentemente de estarem organizados (estruturados) ou não (não estruturados). Os dados semiestruturados, como arquivos JSON ou XML, e os não estruturados, como imagens, vídeos e textos, também fazem parte do Big Data, uma vez que o conceito engloba qualquer tipo de dado que seja volumoso e complexo, demandando tecnologias avançadas para processamento e análise.
dados de redes sociais são exemplos de dados não estruturados. certo ou errado
Certo.
Dados de redes sociais, como postagens de texto, imagens, vídeos, comentários e interações, são exemplos de dados não estruturados. Eles não seguem um formato rígido ou uma estrutura organizacional pré-definida, o que os caracteriza como não estruturados. Esses dados exigem técnicas avançadas de análise, como processamento de linguagem natural (NLP) e reconhecimento de imagem, para serem processados e extraídos insights.
bussines inteligence o que é?
Business Intelligence (BI) é o conjunto de processos, tecnologias, ferramentas e práticas voltadas para a coleta, análise, interpretação e apresentação de dados empresariais com o objetivo de auxiliar na tomada de decisões estratégicas. O BI transforma dados brutos em informações úteis, oferecendo insights sobre o desempenho da empresa, tendências de mercado, comportamento de clientes, eficiência operacional e outras áreas críticas.
As principais funções do BI incluem:
Coleta de dados: Agrega informações de várias fontes, como bancos de dados, planilhas, sistemas de ERP e dados externos.
Processamento e análise: Utiliza ferramentas e técnicas para organizar e analisar os dados, muitas vezes aplicando análises estatísticas e previsões.
Visualização: Cria relatórios, dashboards (painéis de controle) e gráficos interativos para facilitar a interpretação dos dados pelos tomadores de decisão.
Tomada de decisão: Com base nos insights gerados, a empresa pode otimizar operações, identificar novas oportunidades e ajustar estratégias.
Ferramentas populares de BI incluem Power BI, Tableau, QlikView e outras plataformas que permitem a criação de relatórios visuais e interativos.
ETL o que significa
Extract, transform, load
ETL significa Extract, Transform, Load (Extração, Transformação, Carga). É um processo usado em sistemas de Business Intelligence e Data Warehousing para mover dados de diversas fontes para um repositório central, como um banco de dados ou data warehouse, onde podem ser analisados e processados.
Extract (Extração): Consiste em coletar dados de diferentes fontes, que podem ser bancos de dados, sistemas legados, arquivos CSV, APIs ou outras fontes de dados. O objetivo é reunir todas as informações relevantes de maneira eficiente.
Transform (Transformação): Após a extração, os dados são convertidos para um formato adequado para análise. Isso pode incluir limpeza de dados, padronização, remoção de duplicatas, conversão de tipos de dados e até mesmo agregação e cálculos para tornar os dados mais consistentes e úteis.
Load (Carga): Após a transformação, os dados são carregados em um sistema de armazenamento, como um data warehouse ou data lake, onde ficam disponíveis para consultas, relatórios e análises.
O processo ETL é fundamental para a criação de pipelines de dados que alimentam sistemas de Business Intelligence e ajudam a transformar dados brutos em insights acionáveis.
Data warehouse?
Um Data Warehouse (Armazém de Dados) é um sistema de armazenamento de dados projetado para centralizar, organizar e consolidar grandes volumes de informações provenientes de diversas fontes. Ele é utilizado para análise, relatórios e suporte à tomada de decisões estratégicas dentro de uma organização.
Principais características de um Data Warehouse:
Integração de dados: Reúne dados de várias fontes, como sistemas transacionais, bancos de dados, planilhas e dados externos, permitindo que sejam analisados de forma unificada.
Orientado por assunto: Organiza os dados em torno de temas ou áreas específicas de interesse da empresa, como vendas, finanças ou marketing.
Histórico: Armazena grandes volumes de dados históricos, permitindo análises ao longo do tempo, detecção de tendências e previsões.
Imutabilidade: Os dados no Data Warehouse geralmente não são alterados após serem carregados, permitindo uma visão precisa e consistente do histórico de transações e operações.
Desempenho otimizado para consultas: Projetado para fornecer respostas rápidas a consultas complexas e relatórios analíticos, diferentemente dos sistemas transacionais, que são otimizados para lidar com muitas transações simultâneas.
Um Data Warehouse é geralmente usado em conjunto com ferramentas de Business Intelligence (BI) para facilitar a análise de dados e gerar relatórios estratégicos, fornecendo insights valiosos para a gestão e otimização dos negócios.
Quais são as operações principais do data warehouse?
As principais operações do Data Warehouse estão relacionadas ao processamento, organização e análise de grandes volumes de dados. Essas operações ajudam os usuários a extrair insights e realizar consultas analíticas de forma eficiente. Aqui estão as principais operações:
- Roll-up (Subir nível de agregação)
Descrição: A operação de roll-up agrega os dados a um nível mais alto de abstração, reduzindo o detalhamento. Por exemplo, ao invés de visualizar as vendas por dia, um roll-up pode agrupar as vendas por mês ou por ano.
Exemplo: Agregar as vendas diárias em totais mensais. - Drill-down (Descer nível de agregação)
Descrição: É o oposto de roll-up. Com drill-down, você detalha os dados, aumentando o nível de granularidade. Isso permite que o analista explore informações mais detalhadas, como passar de vendas anuais para vendas mensais ou diárias.
Exemplo: Desagregar as vendas mensais em vendas diárias ou até por hora. - Slice (Fatiar)
Descrição: A operação de slice envolve selecionar uma fatia específica dos dados com base em uma dimensão. Isso é útil para visualizar uma “fatia” específica do conjunto de dados multidimensional.
Exemplo: Analisar apenas as vendas de um único mês ou de uma região específica. - Dice (Cubo de dados)
Descrição: O dice é uma operação mais avançada que seleciona múltiplas fatias em várias dimensões. Ela permite criar subconjuntos de dados com base em múltiplos critérios.
Exemplo: Visualizar as vendas durante os meses de janeiro e fevereiro em todas as lojas de uma determinada região. - Pivot (Rotação de eixos)
Descrição: Também conhecida como rotate, a operação de pivot reorienta os dados para fornecer diferentes perspectivas. Basicamente, ela troca as dimensões que estão sendo analisadas, permitindo visualizar os dados de diferentes ângulos.
Exemplo: Trocar a visualização de vendas por produto para vendas por região. - Drill-across (Consulta cruzada)
Descrição: Envolve a consulta de dados em dois ou mais cubos de dados diferentes, permitindo análises entre diferentes áreas ou contextos.
Exemplo: Comparar as vendas com os custos operacionais de diferentes períodos. - Drill-through
Descrição: Permite aos usuários acessar dados de nível mais detalhado que estão armazenados em um banco de dados transacional ou operacional. É uma maneira de “perfurar” o Data Warehouse para obter mais detalhes.
Exemplo: Do nível de agregação de vendas mensais, detalhar até o nível de transações individuais de vendas.
Essas operações fornecem flexibilidade e profundidade na análise dos dados, permitindo que os usuários manipulem e extraiam insights valiosos do Data Warehouse em diferentes níveis de agregação e detalhamento.
Big data 5 V
Os 5 Vs do Big Data são os principais pilares que caracterizam os desafios e as oportunidades do uso de grandes volumes de dados. Eles ajudam a definir o que torna os dados do Big Data únicos em relação a outros tipos de dados. São eles:
Volume: Refere-se à quantidade massiva de dados gerados e armazenados, que pode vir de diversas fontes, como redes sociais, dispositivos IoT, sensores, transações comerciais, etc. O volume dos dados no Big Data é tão grande que as soluções tradicionais de armazenamento e processamento não são suficientes para lidar com eles de maneira eficiente.
Variedade: Refere-se à diversidade de tipos de dados que são gerados. Isso inclui dados estruturados (bancos de dados relacionais), semiestruturados (arquivos JSON ou XML) e não estruturados (imagens, vídeos, textos de redes sociais). Lidar com essa variedade exige ferramentas e técnicas capazes de integrar e processar diferentes formatos de dados.
Velocidade: Trata-se da rapidez com que os dados são gerados, transmitidos e processados. No Big Data, a velocidade com que os dados precisam ser capturados e analisados é crucial, especialmente para informações em tempo real, como dados de sensores, transações financeiras ou interações online.
Veracidade: Refere-se à confiabilidade e à qualidade dos dados. Como o Big Data envolve grandes volumes de dados de diversas fontes, pode haver inconsistências, dados incompletos ou incorretos. A veracidade está relacionada ao desafio de garantir a precisão e a relevância dos dados analisados.
Valor: O valor é o mais importante dos “Vs”. Ele trata da capacidade de extrair insights e informações úteis a partir dos dados. De nada adianta coletar grandes volumes de dados se eles não proporcionarem valor para a empresa ou não ajudarem na tomada de decisões estratégicas.
Esses cinco Vs são os fundamentos para trabalhar com Big Data, representando os principais desafios e benefícios do uso de grandes volumes de dados em diversos setores.
Data warehouse
Pivot
Rotação -
Visão produto
Visão vendas
Visão período
Deferentes visualizações dos dados
Mudança de hierarquia
Troca de dimensões
Linha e colunas invertidas
Data warehouse
Slice
RJ (local fixado)
Vendas produtos
Qualquer período
Uma dimensão selecionada / fixada
Recupera valores das outras dimensões
Geralmente bidimensional
Fatia
Data warehouse
Dice - d de “duas”
RJ (local fixado)
Água de Coco (fixado)
Carnaval ( fixado)
Duas ou mais dimensões fixadas
Recupera valores das outras dimensões
Geralmente tridimensional subcubo
Do cubo
Redução do escopo dos dados em análise
Data warehouse
Drill Down
Ano
Mês
Dia
Aumenta o nível de detalhe
Diminui o nível de granularidade
Menos agregado
Data warehouse
Roll up
Drill up
Dia
Mês
Ano
Diminui o nível de detalhe
Aumenta o nível de granularidade
Mais agregado/ sumarizado