process data from dirty to clean Flashcards
qual é a chave que garante a integridade dos dados?
dados limpos
o que é integridade dos dados?
integridade dos dados é a precisão, completude, consistência e confiabilidade dos dados durante todo o seu ciclo de vida
como a integridade dos dados pode ser comprometida?
por meio da replicação, transferência ou manipulação dos dados, ou ainda por erro humano, vírus, malware, hackers e falhas do sistema
o que é replicação de dados?
é o processo de armazenamento de dados em vários locais diferentes
o que é transferência de dados?
é o processo de copiar dados de um dispositivo de armazenamento para a memória ou de um computador para outro
o que é manipulação de dados?
é o processo que envolve alterar os dados para torná-los mais organizados e fáceis de ler
o que significa um bom alinhamento dos dados com o objetivo do negócio?
significa que os dados são relevantes e podem ajudar a resolver um problema ou a desenvolver uma estratégia
quais são os tipos mais comuns de dados insuficientes?
dados de uma única fonte
dados que são constantemente atualizados
dados desatualizados
dados geograficamente limitados
o que é população?
são todos os valores possíveis em um determinado conjunto de dados ou o grupo inteiro de interesse
o que é amostra?
é uma parte da população que é representativa da população como um todo
quando ocorre sampling bias?
quando uma amostra não é representativa da população como um todo, pois alguns membros podem estar sobre ou sub-representados
o que é amostragem aleatória?
é uma forma de selecionar uma amostra de uma população de modo que todos os tipos possíveis de amostra tenham chances iguais de serem escolhidos
qual é o número mínimo de amostras?
30
o que é poder estatístico?
poder estatístico é a probabilidade de se obterem resultados significativos em um teste
o que é hipótese estatística?
é uma forma de se verificar se uma pesquisa ou um experimento tem resultados significativos
o que significa um teste estatisticamente significativo?
significa que os seus resultados são reais, e não um erro gerado pelo acaso
o que é nível de confiança?
é a probabilidade de que a amostra reflete com precisão a população como um todo (entre 90 e 95%)
o que é margem de erro?
é o valor máximo da diferença entre os resultados da amostra e os da população real
o que é taxa de resposta estimada?
é a porcentagem de pessoas que você espera que concluam a pesquisa entre aquelas que as receberam
o que são dados sujos?
dados sujos são dados incompletos, incorretos ou irrelevantes para o problema que você quer resolver
o que fazem os engenheiros de dados?
engenheiros de dados transformam dados em um formato útil para análise e fornecem uma infraestrutura confiável
o que fazem os especialistas em armazenamento de dados?
especialistas em armazenamento de dados (data warehousing) desenvolvem processos e procedimentos para armazenar e organizar os dados de maneira eficaz
quais são os cinco tipos de dados sujos?
dados duplicados
dados desatualizados
dados incompletos
dados incorretos/imprecisos
dados inconsistentes
o que é validação de dados?
validação de dados (data validation) é uma ferramenta para verificar a precisão e a qualidade dos dados antes de adicioná-los ou importá-los
quais são os quatro princípios de integridade dos dados?
validade
precisão
completude
consistência
o que é validade?
integridade dos dados
é o conceito de usar princípios de integridade de dados para garantir que as medidas estão em conformidade com regras ou restrições definidas
o que é precisão?
integridade dos dados
é o grau de conformidade a um padrão ou um valor verdadeiro
o que é completude?
integridade dos dados
é o grau em que todas as medidas necessárias são conhecidas
o que é consistência?
integridade dos dados
é o grau em que um conjunto de medidas é equivalente entre sistemas
o que é fusão de dados?
fusão de dados (data merge) é o processo de combinar dois ou mais conjuntos de dados em um único conjunto de dados
o que é mapeamento de dados?
é o processo de correspondência de campos de um banco de dados para outro, o que é muito importante para o sucesso da migração e da integração de dados e para outras atividades de gerenciamento de dados
o que é verificação?
é um processo para confirmar que a limpeza de dados foi bem executada e que os dados resultantes são precisos e confiáveis
o que é um changelog?
é um arquivo que contém uma lista cronológica das modificações realizadas em um projeto
o que é documentação?
é o processo de rastreamento de alterações, adições, exclusões e erros envolvidos na limpeza de dados
quais são os quatro passos do processo de verificação?
- voltar ao conjunto de dados sujos original e compará-lo ao conjunto de dados limpos. revise os dados sujos e tente identificar problemas comuns
- ter uma visão geral do projeto (big-picture view), para confirmar que você está se concentrando no problema e nas metas gerais
- pedir a um colega para revisar os dados e dar feedbacks
- verificar se há algo suspeito ou potencialmente problemático nos dados