Princípios de Análise de Dados e Informações Flashcards
Quais são as etapas do ciclo de análise de dados no modelo CRISP-DM?
- Entendimento do Negócio
- Entendimento dos Dados
- Preparação dos Dados
- Modelagem
- Avaliação
- Implantação
O que significa KPI (Key Performance Indicator) e qual sua função?
KPI (Indicador-chave de desempenho) é uma métrica usada para medir o desempenho de processos ou atividades em relação a um objetivo estratégico específico, permitindo acompanhar o progresso e tomar decisões baseadas em dados.
Qual é a principal função do Diagrama de Ishikawa?
O Diagrama de Ishikawa, também conhecido como diagrama de espinha de peixe, é utilizado para identificar possíveis causas de um problema ou efeito, categorizando-as em grupos como máquinas, métodos, mão de obra, materiais, entre outros.
Como funciona a técnica dos Cinco Porquês?
A técnica dos Cinco Porquês envolve questionar “por que” repetidamente (geralmente cinco vezes) para aprofundar a análise de um problema até encontrar sua causa raiz.
O que é a Análise de Pareto?
A Análise de Pareto é uma técnica baseada no princípio 80/20, que sugere que 80% dos efeitos advêm de 20% das causas. É uma ferramenta gráfica usada para priorizar as causas do problema.
Quais as etapas de definição de “Entendimento do Negócio” no ciclo CRISP-DM?
- Objetivos do projeto
- Critérios de sucesso
- Recursos e contingenciamentos
- Objetivos do data mining
- Planejamento estrutural do projeto
Pergunta: Qual é a relação entre a etapa de “Preparação de Dados” no CRISP-DM e a qualidade das métricas de negócio (KPIs)?
A “Preparação de Dados” envolve a limpeza e transformação dos dados para garantir que estejam adequados para análise. KPIs baseados em dados não confiáveis ou mal preparados podem levar a conclusões erradas, resultando em decisões estratégicas falhas. Portanto, essa etapa é vital para garantir a precisão dos KPIs.
O que são as 6M no Diagrama de Ishikawa?
As 6M são categorias usadas para identificar e organizar as causas de um problema. Elas incluem Máquina, Método, Material, Mão de Obra, Meio Ambiente e Medição. Cada categoria ajuda a analisar diferentes aspectos do processo que podem estar causando o problema.
Quais são as fases principais do Ciclo do Processo de avaliação de problem?
- Identificação do Problema; - Análise das Causas, Planejamento de Soluções, Implementação das Ações Corretivas, e Monitoramento e Avaliação dos Resultados. Cada fase contribui para garantir uma abordagem estruturada para a resolução de problemas.
Como aplicar a técnica dos Cinco Porquês?
Defina o problema.
Pergunte “por quê?” o problema ocorreu.
Continue perguntando “por quê?” para cada resposta obtida até chegar à causa raiz (geralmente após cinco iterações).
Desenvolva soluções baseadas na causa raiz encontrada.
Quais são as vantagens da técnica dos Cinco Porquês?
Simplicidade: Não requer análise complexa ou ferramentas sofisticadas.
Eficiência: Ajuda a encontrar rapidamente a causa raiz de um problema.
Melhoria contínua: Facilita a identificação de falhas no processo e fomenta soluções permanentes.
O que é o Diagrama de Causa Raiz?
O Diagrama de Causa Raiz é uma técnica de análise que busca identificar a causa fundamental de um problema. Em vez de categorizar múltiplas causas, ele se concentra em investigar a origem do problema, frequentemente usando técnicas como os Cinco Porquês para chegar à raiz do problema.
Diferença principal entre Ishikawa e Diagrama de Causa Raiz
A principal diferença está no foco:
O Diagrama de Ishikawa categoriza várias causas potenciais de um problema em grupos.
O Diagrama de Causa Raiz aprofunda-se em uma cadeia de causas até encontrar a causa fundamental do problema.
Passo a passo do diagrama de Parreto
- Identificar e categoriza oss problemas;
- Organizar os dados;
- Cálculo das frequencias;
- Ordenação das Categorias;
- Criação do diagrama;
- Linha de percentagem cumulativa;
- Análise;
- Ação
Ótima de Parreto
É um conceito da economia do bem-estar que define uma situação em que não é possível melhorar a condição de um indivíduo sem piorar a condição de outro. Em termos de alocação de recursos, uma situação é considerada Pareto eficiente quando nenhum indivíduo pode ser beneficiado sem causar prejuízo a outro.
Qual é o objetivo principal da Curva ABC?
A Curva ABC classifica itens com base em sua importância relativa, geralmente em termos de valor ou impacto financeiro, para facilitar a gestão de inventário e a alocação de recursos.
Como o Diagrama de Pareto é representado graficamente?
O Diagrama de Pareto é representado por um gráfico de barras que mostra os problemas ou causas em ordem decrescente de frequência ou impacto, acompanhado de uma linha cumulativa que mostra a porcentagem acumulada dos efeitos.
Quais são as três categorias principais na Curva ABC?
As três categorias principais na Curva ABC são: A (itens de maior importância), B (itens de importância moderada), e C (itens de menor importância).
Qual é a principal diferença entre o Diagrama de Pareto e a Curva ABC?
A principal diferença é o propósito: o Diagrama de Pareto é usado para identificar e priorizar causas de problemas, enquanto a Curva ABC é usada para categorizar itens por importância para a gestão de inventário e recursos.
O que é a Curva S?
Curva S é um gráfico que representa o progresso de um projeto ao longo do tempo, mostrando a quantidade cumulativa de trabalho realizado (ou gasto) comparada com o planejamento. O nome “Curva S” vem da forma que o gráfico geralmente assume, semelhante à letra “S”.
Qual técnica de desidentificação de dados é a mais adequada para preservar a privacidade dos indivíduos processados, permitindo ainda a análise sociodemográfica dos bairros?
Agregação: Agrupar os dados dos indivíduos em categorias amplas, como faixa etária e classe social, mas excluir informações sobre cor ou raça e bairro.
Quais as etapas de definição de “Entendimento dos dados” no ciclo CRISP-DM
- Coleta;
- Descrição;
- Exploração e
- Verificação da qualidade.
Quais as etapas de definição de “Preparação dos dados” no ciclo CRISP-DM
- Seleção
- Limpeza
- Construção
- Integração
- Formatação
Quais as etapas de definição de “Modelagem” no ciclo CRISP-DM
- Escolha da técnica de modelagem
- Design teste
- Construção do modelo
- Avaliação
O que são variáveis burras (dummy variables) e para que servem?
Variáveis burras são utilizadas para representar informações qualitativas (categóricas) em modelos quantitativos. Elas assumem valores de 0 ou 1 para indicar a ausência ou presença de uma característica. São amplamente usadas em modelos de regressão para permitir a inclusão de categorias como gênero, setor econômico ou tipos de ensino.
Quais as etapas de definição de “Avaliação” no ciclo CRISP-DM
- Revisão dos critérios de sucesso;
- Revisão do processo completo e
- Determinação de próximos passos
Quais as etapas de definição de “Implementação” no ciclo CRISP-DM
- Planejamento de:
- Implantação
- Monitoramento
- Manutenção
- Produção do relatório final e
Revisão do projeto
Qual é a fórmula da função ReLU, comumente utilizada em redes neurais?
Se o valor de entrada (x) for maior que zero, a saída será o próprio valor de x.
Se o valor de entrada (x) for menor ou igual a zero, a saída será zero.
Qual função do SciKit-learn é utilizada para dividir um conjunto de dados em partes de treinamento e teste?
A função train_test_split do SciKit-learn é usada para dividir eficientemente um conjunto de dados em dois subconjuntos: um para treinamento e outro para teste. Isso permite validar a eficácia de um modelo de aprendizado de máquina, garantindo que o modelo não seja testado nos mesmos dados em que foi treinado.
Qual técnica auxilia a prevenir o overfitting em modelos de SVM?
Uma maneira eficaz de prevenir o overfitting em SVM é utilizar um kernel linear. Essa técnica é especialmente útil quando os dados não são altamente complexos ou não apresentam uma separação não-linear evidente. O uso de kernels mais complexos pode aumentar o risco de overfitting, enquanto o kernel linear mantém a simplicidade do modelo e ajuda a generalizar melhor.
Quando o tratamento de outliers deve ser realizado em um conjunto de dados?
O tratamento de outliers deve ser realizado antes de realizar agregações, pois esses pontos podem distorcer ou afetar significativamente os resultados de análises que envolvem agregações, como médias ou somas. Isso é importante para garantir que os outliers não influenciem indevidamente as conclusões da análise.
Como Random Forests lidam com outliers em dados?
Random Forests reduzem a variância do modelo ao combinar diversas árvores de decisão, o que torna o modelo mais robusto e menos sensível a outliers.
Qual é a complexidade computacional da predição em uma árvore de decisão treinada com o algoritmo CART?
A complexidade é O(log₂(m)), onde m é o número de instâncias no conjunto de dados.
O que é o algoritmo CART (Classification And Regression Tree)?
O algoritmo CART constrói árvores de decisão com base em divisões binárias recursivas dos dados, sendo usado para problemas de classificação e regressão. Ele divide os dados em subconjuntos homogêneos até que uma condição de parada seja atingida, como profundidade máxima ou um número mínimo de instâncias por nó.
Qual algoritmo é mais adequado para agrupamento hierárquico, onde grupos são subdivididos em grupos menores?
O algoritmo Agglomerative Hierarchical Clustering é ideal para criar uma estrutura hierárquica de agrupamento, permitindo subdivisões de grupos de dados em grupos menores, como no exemplo de agrupar visitantes de um blog.
Qual é o processo necessário para garantir a consistência e precisão dos dados compartilhados entre uma sociedade empresária e o Ipea?
O processo necessário é o Master Data Management (MDM), que envolve a criação de um único registro para cada pessoa, local e objeto. Isso assegura que os dados compartilhados entre as organizações sejam consistentes e precisos, permitindo uma governança eficaz das informações.
O que caracteriza a “ingenuidade” do modelo Naive Bayes no contexto do classificador Bayesiano?
A ingenuidade do modelo Naive Bayes é caracterizada pela suposição de independência condicional entre as variáveis preditoras. Essa suposição simplifica o cálculo das probabilidades, assumindo que as variáveis não se influenciam entre si, dado o resultado da classe.
Qual técnica é mais adequada para discretizar uma variável de distâncias em 10 intervalos com aproximadamente o mesmo número de observações?
A técnica de discretização mais adequada é a de Frequência Igual. Essa abordagem cria intervalos que contêm um número semelhante de observações, garantindo que cada intervalo tenha uma representação equitativa dos dados.