Princípios de Análise de Dados e Informações Flashcards

1
Q

Quais são as etapas do ciclo de análise de dados no modelo CRISP-DM?

A
  • Entendimento do Negócio
  • Entendimento dos Dados
  • Preparação dos Dados
  • Modelagem
  • Avaliação
  • Implantação
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

O que significa KPI (Key Performance Indicator) e qual sua função?

A

KPI (Indicador-chave de desempenho) é uma métrica usada para medir o desempenho de processos ou atividades em relação a um objetivo estratégico específico, permitindo acompanhar o progresso e tomar decisões baseadas em dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Qual é a principal função do Diagrama de Ishikawa?

A

O Diagrama de Ishikawa, também conhecido como diagrama de espinha de peixe, é utilizado para identificar possíveis causas de um problema ou efeito, categorizando-as em grupos como máquinas, métodos, mão de obra, materiais, entre outros.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Como funciona a técnica dos Cinco Porquês?

A

A técnica dos Cinco Porquês envolve questionar “por que” repetidamente (geralmente cinco vezes) para aprofundar a análise de um problema até encontrar sua causa raiz.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

O que é a Análise de Pareto?

A

A Análise de Pareto é uma técnica baseada no princípio 80/20, que sugere que 80% dos efeitos advêm de 20% das causas. É uma ferramenta gráfica usada para priorizar as causas do problema.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quais as etapas de definição de “Entendimento do Negócio” no ciclo CRISP-DM?

A
  • Objetivos do projeto
  • Critérios de sucesso
  • Recursos e contingenciamentos
  • Objetivos do data mining
  • Planejamento estrutural do projeto
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Pergunta: Qual é a relação entre a etapa de “Preparação de Dados” no CRISP-DM e a qualidade das métricas de negócio (KPIs)?

A

A “Preparação de Dados” envolve a limpeza e transformação dos dados para garantir que estejam adequados para análise. KPIs baseados em dados não confiáveis ou mal preparados podem levar a conclusões erradas, resultando em decisões estratégicas falhas. Portanto, essa etapa é vital para garantir a precisão dos KPIs.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

O que são as 6M no Diagrama de Ishikawa?

A

As 6M são categorias usadas para identificar e organizar as causas de um problema. Elas incluem Máquina, Método, Material, Mão de Obra, Meio Ambiente e Medição. Cada categoria ajuda a analisar diferentes aspectos do processo que podem estar causando o problema.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quais são as fases principais do Ciclo do Processo de avaliação de problem?

A
  • Identificação do Problema; - Análise das Causas, Planejamento de Soluções, Implementação das Ações Corretivas, e Monitoramento e Avaliação dos Resultados. Cada fase contribui para garantir uma abordagem estruturada para a resolução de problemas.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Como aplicar a técnica dos Cinco Porquês?

A

Defina o problema.
Pergunte “por quê?” o problema ocorreu.
Continue perguntando “por quê?” para cada resposta obtida até chegar à causa raiz (geralmente após cinco iterações).
Desenvolva soluções baseadas na causa raiz encontrada.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quais são as vantagens da técnica dos Cinco Porquês?

A

Simplicidade: Não requer análise complexa ou ferramentas sofisticadas.
Eficiência: Ajuda a encontrar rapidamente a causa raiz de um problema.
Melhoria contínua: Facilita a identificação de falhas no processo e fomenta soluções permanentes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

O que é o Diagrama de Causa Raiz?

A

O Diagrama de Causa Raiz é uma técnica de análise que busca identificar a causa fundamental de um problema. Em vez de categorizar múltiplas causas, ele se concentra em investigar a origem do problema, frequentemente usando técnicas como os Cinco Porquês para chegar à raiz do problema.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Diferença principal entre Ishikawa e Diagrama de Causa Raiz

A

A principal diferença está no foco:

O Diagrama de Ishikawa categoriza várias causas potenciais de um problema em grupos.
O Diagrama de Causa Raiz aprofunda-se em uma cadeia de causas até encontrar a causa fundamental do problema.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Passo a passo do diagrama de Parreto

A
  • Identificar e categoriza oss problemas;
  • Organizar os dados;
  • Cálculo das frequencias;
  • Ordenação das Categorias;
  • Criação do diagrama;
  • Linha de percentagem cumulativa;
  • Análise;
  • Ação
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Ótima de Parreto

A

É um conceito da economia do bem-estar que define uma situação em que não é possível melhorar a condição de um indivíduo sem piorar a condição de outro. Em termos de alocação de recursos, uma situação é considerada Pareto eficiente quando nenhum indivíduo pode ser beneficiado sem causar prejuízo a outro.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Qual é o objetivo principal da Curva ABC?

A

A Curva ABC classifica itens com base em sua importância relativa, geralmente em termos de valor ou impacto financeiro, para facilitar a gestão de inventário e a alocação de recursos.

17
Q

Como o Diagrama de Pareto é representado graficamente?

A

O Diagrama de Pareto é representado por um gráfico de barras que mostra os problemas ou causas em ordem decrescente de frequência ou impacto, acompanhado de uma linha cumulativa que mostra a porcentagem acumulada dos efeitos.

18
Q

Quais são as três categorias principais na Curva ABC?

A

As três categorias principais na Curva ABC são: A (itens de maior importância), B (itens de importância moderada), e C (itens de menor importância).

19
Q

Qual é a principal diferença entre o Diagrama de Pareto e a Curva ABC?

A

A principal diferença é o propósito: o Diagrama de Pareto é usado para identificar e priorizar causas de problemas, enquanto a Curva ABC é usada para categorizar itens por importância para a gestão de inventário e recursos.

20
Q

O que é a Curva S?

A

Curva S é um gráfico que representa o progresso de um projeto ao longo do tempo, mostrando a quantidade cumulativa de trabalho realizado (ou gasto) comparada com o planejamento. O nome “Curva S” vem da forma que o gráfico geralmente assume, semelhante à letra “S”.

21
Q

Qual técnica de desidentificação de dados é a mais adequada para preservar a privacidade dos indivíduos processados, permitindo ainda a análise sociodemográfica dos bairros?

A

Agregação: Agrupar os dados dos indivíduos em categorias amplas, como faixa etária e classe social, mas excluir informações sobre cor ou raça e bairro.

22
Q

Quais as etapas de definição de “Entendimento dos dados” no ciclo CRISP-DM

A
  • Coleta;
  • Descrição;
  • Exploração e
  • Verificação da qualidade.
23
Q

Quais as etapas de definição de “Preparação dos dados” no ciclo CRISP-DM

A
  • Seleção
  • Limpeza
  • Construção
  • Integração
  • Formatação
24
Q

Quais as etapas de definição de “Modelagem” no ciclo CRISP-DM

A
  • Escolha da técnica de modelagem
  • Design teste
  • Construção do modelo
  • Avaliação
25
Q

O que são variáveis burras (dummy variables) e para que servem?

A

Variáveis burras são utilizadas para representar informações qualitativas (categóricas) em modelos quantitativos. Elas assumem valores de 0 ou 1 para indicar a ausência ou presença de uma característica. São amplamente usadas em modelos de regressão para permitir a inclusão de categorias como gênero, setor econômico ou tipos de ensino.

26
Q

Quais as etapas de definição de “Avaliação” no ciclo CRISP-DM

A
  • Revisão dos critérios de sucesso;
  • Revisão do processo completo e
  • Determinação de próximos passos
27
Q

Quais as etapas de definição de “Implementação” no ciclo CRISP-DM

A
  • Planejamento de:
  • Implantação
  • Monitoramento
  • Manutenção
  • Produção do relatório final e
    Revisão do projeto
28
Q

Qual é a fórmula da função ReLU, comumente utilizada em redes neurais?

A

Se o valor de entrada (x) for maior que zero, a saída será o próprio valor de x.
Se o valor de entrada (x) for menor ou igual a zero, a saída será zero.

29
Q

Qual função do SciKit-learn é utilizada para dividir um conjunto de dados em partes de treinamento e teste?

A

A função train_test_split do SciKit-learn é usada para dividir eficientemente um conjunto de dados em dois subconjuntos: um para treinamento e outro para teste. Isso permite validar a eficácia de um modelo de aprendizado de máquina, garantindo que o modelo não seja testado nos mesmos dados em que foi treinado.

30
Q

Qual técnica auxilia a prevenir o overfitting em modelos de SVM?

A

Uma maneira eficaz de prevenir o overfitting em SVM é utilizar um kernel linear. Essa técnica é especialmente útil quando os dados não são altamente complexos ou não apresentam uma separação não-linear evidente. O uso de kernels mais complexos pode aumentar o risco de overfitting, enquanto o kernel linear mantém a simplicidade do modelo e ajuda a generalizar melhor.

31
Q

Quando o tratamento de outliers deve ser realizado em um conjunto de dados?

A

O tratamento de outliers deve ser realizado antes de realizar agregações, pois esses pontos podem distorcer ou afetar significativamente os resultados de análises que envolvem agregações, como médias ou somas. Isso é importante para garantir que os outliers não influenciem indevidamente as conclusões da análise.

32
Q

Como Random Forests lidam com outliers em dados?

A

Random Forests reduzem a variância do modelo ao combinar diversas árvores de decisão, o que torna o modelo mais robusto e menos sensível a outliers.

33
Q

Qual é a complexidade computacional da predição em uma árvore de decisão treinada com o algoritmo CART?

A

A complexidade é O(log₂(m)), onde m é o número de instâncias no conjunto de dados.

34
Q

O que é o algoritmo CART (Classification And Regression Tree)?

A

O algoritmo CART constrói árvores de decisão com base em divisões binárias recursivas dos dados, sendo usado para problemas de classificação e regressão. Ele divide os dados em subconjuntos homogêneos até que uma condição de parada seja atingida, como profundidade máxima ou um número mínimo de instâncias por nó.

35
Q
A
36
Q

Qual algoritmo é mais adequado para agrupamento hierárquico, onde grupos são subdivididos em grupos menores?

A

O algoritmo Agglomerative Hierarchical Clustering é ideal para criar uma estrutura hierárquica de agrupamento, permitindo subdivisões de grupos de dados em grupos menores, como no exemplo de agrupar visitantes de um blog.

37
Q

Qual é o processo necessário para garantir a consistência e precisão dos dados compartilhados entre uma sociedade empresária e o Ipea?

A

O processo necessário é o Master Data Management (MDM), que envolve a criação de um único registro para cada pessoa, local e objeto. Isso assegura que os dados compartilhados entre as organizações sejam consistentes e precisos, permitindo uma governança eficaz das informações.

38
Q

O que caracteriza a “ingenuidade” do modelo Naive Bayes no contexto do classificador Bayesiano?

A

A ingenuidade do modelo Naive Bayes é caracterizada pela suposição de independência condicional entre as variáveis preditoras. Essa suposição simplifica o cálculo das probabilidades, assumindo que as variáveis não se influenciam entre si, dado o resultado da classe.

39
Q

Qual técnica é mais adequada para discretizar uma variável de distâncias em 10 intervalos com aproximadamente o mesmo número de observações?

A

A técnica de discretização mais adequada é a de Frequência Igual. Essa abordagem cria intervalos que contêm um número semelhante de observações, garantindo que cada intervalo tenha uma representação equitativa dos dados.