Governanca de Dados Flashcards
Ciclo de vida
Fazer pergunta - questão: descritiva, exploratória, preditiva
Obter dos dados - extração, limpeza
Compreender os dados - análise exploratória dos dados
Compreender o mundo - aplicar o modelo, generalização, algoritmo, modelo estatístico
Comunicar e visualizar os resultados - storyteling, apresentar as descobertas, dashbords
As sete etapas
Problema
Etl
Ead
Modelo descrição
Avaliação do modelo
Implantação
Monitoramento e manutenção do modelo
7 etapas do ciclo de vida
Abraham musa
Problema
Coleta de dados
Limpeza dos dados
Processamento EAD
Modelagem e avaliação
Comunicar os resultados
Manutenção e deployment
Riscos dos projetos
Dependência dos dados
Mudanças de requisitos
Mudanças de dados
Experimentação e pesquisa
Algoritimos preditivos
Altamente dependentes dos dados
Mudanças de requisitos ou
Mudanças nos dados
Clientes pedem alguma mudança
Integrae em nova fonte
Mudanças de requisitos ou
Mudanças nos dados
Clientes pedem alguma mudança
Integrae em nova fonte
Pesquisa e experimentação
Importante ter governança de dados
Planejar, testar em ambientes reduzidos
Clusterizavao, limpeza, outilier, buscando a solução
Em um projeto de ciência de dados, qual das seguintes etapas é
crucial para garantir a qualidade dos dados antes de avançar para
a construção do modelo?
Análise Exploratória de Dados (AED)
CRISP-DM
é um framework que guia as
etapas e atividades envolvidas em um
projeto de mineração de dados, desde
a compreensão inicial do problema até
a implementação e avaliação do
modelo final.
* O modelo é projetado para ser iterativo
e cíclico, permitindo ajustes contínuos
e refinamentos ao longo do projeto
A fase do CRISP-DM em que se dá a aplicação das técnicas de
mineração de dados propriamente ditas é denominada
modelagem
Etapas do CRISP DM
Entendimento do negócio
Entendimento dos dados
Preparação dados
Modelagem
Avaliação
Entrega e deployment
Preparação
ETL
Avaliação, definição das metas do projeto
Na avaliação e feito para verificar se foi alcançado as metas, se está tudo ok
Cada uma das fases do CRISP DM
Fases
Tarefas genéricas
Tarefas especializadas
Instâncias de processos
Entendimento do negócio
Determinar objetivo
Conhecer a situação
Produzir um plano de um projeto
Entendimento dos dados
Coletar os dados iniciais
Descrever os dados
Explorar os dados
Verificar a qualidade dos dados
Preparação dos dados
Selecionar os dados
Limpar os dados
Construir os dados
Integrar os dados
Formatar os dados
Descrição da base
Modelagem
Seleção as técnicas
Projeto de testes
Construção do modelo
Ajuste do modelo
Avaliação dos modelos
Avaliação dos resultados
Revisao do processo
Determinar os próximos passos ou voltar as etapas
Entrega
Planejar entrega
Planejar o monitoramento e a manutenção
Produzir um relatório final
Lições aprendidas
No que se refere a modelagem dimensional, mineração de dados e
big data, julgue o item subsequente.
* No modelo CRISP-DM, a fase de preparação dos dados é
caracterizada por atividades como análise da qualidade dos dados,
exploração dos dados, geração dos primeiros insights e formulação
de hipóteses
ERRADO
Com relação a noções de mineração de dados e Big Data, julgue o
item que se segue.
* Na primeira fase do CRISP-DM (cross industry standard process for
data mining), há o entendimento dos dados para que se analise a
qualidade destes
ERRADO
Assinale a opção correta a respeito do CRISP-DM.
* A CRISP-DM é uma suíte de ferramentas proprietárias que vem se tornando um padrão da
indústria para mineração de dados, uma vez que fornece um plano completo e tecnologias
para a realização de um projeto de mineração de dados.
* B A verificação da qualidade dos dados é uma atividade da fase de entendimento dos dados.
* C Durante a fase de preparação dos dados, é realizado um inventário de requisitos,
suposições e restrições de recursos.
* D Na fase de avaliação dos dados, são realizadas as atividades de identificar valores
especiais dos dados e catalogar seu significado.
* E Na fase de preparação dos dados, são realizadas as atividades de analisar o potencial de
implantação de cada resultado e estimar o potencial de melhoria do processo atual
B