process data from dirty to clean Flashcards

1
Q

qual é a chave que garante a integridade dos dados?

A

dados limpos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

o que é integridade dos dados?

A

integridade dos dados é a precisão, completude, consistência e confiabilidade dos dados durante todo o seu ciclo de vida

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

como a integridade dos dados pode ser comprometida?

A

por meio da replicação, transferência ou manipulação dos dados, ou ainda por erro humano, vírus, malware, hackers e falhas do sistema

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

o que é replicação de dados?

A

é o processo de armazenamento de dados em vários locais diferentes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

o que é transferência de dados?

A

é o processo de copiar dados de um dispositivo de armazenamento para a memória ou de um computador para outro

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

o que é manipulação de dados?

A

é o processo que envolve alterar os dados para torná-los mais organizados e fáceis de ler

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

o que significa um bom alinhamento dos dados com o objetivo do negócio?

A

significa que os dados são relevantes e podem ajudar a resolver um problema ou a desenvolver uma estratégia

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

quais são os tipos mais comuns de dados insuficientes?

A

dados de uma única fonte
dados que são constantemente atualizados
dados desatualizados
dados geograficamente limitados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

o que é população?

A

são todos os valores possíveis em um determinado conjunto de dados ou o grupo inteiro de interesse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

o que é amostra?

A

é uma parte da população que é representativa da população como um todo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

quando ocorre sampling bias?

A

quando uma amostra não é representativa da população como um todo, pois alguns membros podem estar sobre ou sub-representados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

o que é amostragem aleatória?

A

é uma forma de selecionar uma amostra de uma população de modo que todos os tipos possíveis de amostra tenham chances iguais de serem escolhidos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

qual é o número mínimo de amostras?

A

30

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

o que é poder estatístico?

A

poder estatístico é a probabilidade de se obterem resultados significativos em um teste

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

o que é hipótese estatística?

A

é uma forma de se verificar se uma pesquisa ou um experimento tem resultados significativos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

o que significa um teste estatisticamente significativo?

A

significa que os seus resultados são reais, e não um erro gerado pelo acaso

17
Q

o que é nível de confiança?

A

é a probabilidade de que a amostra reflete com precisão a população como um todo (entre 90 e 95%)

18
Q

o que é margem de erro?

A

é o valor máximo da diferença entre os resultados da amostra e os da população real

19
Q

o que é taxa de resposta estimada?

A

é a porcentagem de pessoas que você espera que concluam a pesquisa entre aquelas que as receberam

20
Q

o que são dados sujos?

A

dados sujos são dados incompletos, incorretos ou irrelevantes para o problema que você quer resolver

21
Q

o que fazem os engenheiros de dados?

A

engenheiros de dados transformam dados em um formato útil para análise e fornecem uma infraestrutura confiável

22
Q

o que fazem os especialistas em armazenamento de dados?

A

especialistas em armazenamento de dados (data warehousing) desenvolvem processos e procedimentos para armazenar e organizar os dados de maneira eficaz

23
Q

quais são os cinco tipos de dados sujos?

A

dados duplicados
dados desatualizados
dados incompletos
dados incorretos/imprecisos
dados inconsistentes

24
Q

o que é validação de dados?

A

validação de dados (data validation) é uma ferramenta para verificar a precisão e a qualidade dos dados antes de adicioná-los ou importá-los

25
Q

quais são os quatro princípios de integridade dos dados?

A

validade
precisão
completude
consistência

26
Q

o que é validade?

integridade dos dados

A

é o conceito de usar princípios de integridade de dados para garantir que as medidas estão em conformidade com regras ou restrições definidas

27
Q

o que é precisão?

integridade dos dados

A

é o grau de conformidade a um padrão ou um valor verdadeiro

28
Q

o que é completude?

integridade dos dados

A

é o grau em que todas as medidas necessárias são conhecidas

29
Q

o que é consistência?

integridade dos dados

A

é o grau em que um conjunto de medidas é equivalente entre sistemas

30
Q

o que é fusão de dados?

A

fusão de dados (data merge) é o processo de combinar dois ou mais conjuntos de dados em um único conjunto de dados

31
Q

o que é mapeamento de dados?

A

é o processo de correspondência de campos de um banco de dados para outro, o que é muito importante para o sucesso da migração e da integração de dados e para outras atividades de gerenciamento de dados

32
Q

o que é verificação?

A

é um processo para confirmar que a limpeza de dados foi bem executada e que os dados resultantes são precisos e confiáveis

33
Q

o que é um changelog?

A

é um arquivo que contém uma lista cronológica das modificações realizadas em um projeto

34
Q

o que é documentação?

A

é o processo de rastreamento de alterações, adições, exclusões e erros envolvidos na limpeza de dados

35
Q

quais são os quatro passos do processo de verificação?

A
  1. voltar ao conjunto de dados sujos original e compará-lo ao conjunto de dados limpos. revise os dados sujos e tente identificar problemas comuns
  2. ter uma visão geral do projeto (big-picture view), para confirmar que você está se concentrando no problema e nas metas gerais
  3. pedir a um colega para revisar os dados e dar feedbacks
  4. verificar se há algo suspeito ou potencialmente problemático nos dados