prepare data for exploration Flashcards

curso 3

1
Q

o que são dados e como eles são gerados?

A

cada informação são dados. todos esses dados são geralmente gerados como resultado da nossa atividade no mundo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

o que são cookies?

A

cookies são pequenos arquivos armazenados em computadores que contêm informações sobre os usuários. cookies informam aos anunciantes sobre os interesses e hábitos pessoais dos usuários com base em sua navegação online, sem os identificar pessoalmente

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

o que é first-party data?

A

first-party data são dados coletados por um indivíduo ou um grupo usando os seus próprios recursos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

o que é second-party data?

A

second-party data são dados coletados por um grupo diretamente de seu público e depois vendidos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

o que é third-party data?

A

dados coletados de fontes externas, que não os coletaram diretamente

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

o que é população?

A

população refere-se a todos os valores de dados possíveis em um determinado conjunto de dados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

o que é amostra?

A

amostra refere-se à parte de uma população que é representativa da população

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

o que são dados qualitativos?

A

dados qualitativos são uma medida subjetiva e explicativa de uma qualidade ou característica e não podem ser contados, medidos ou facilmente expressos por meio de números. geralmente, são listados como nome, categoria ou descrição

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

o que são dados quantitativos?

A

dados quantitativos são uma medida específica e objetiva e podem ser medidos ou contados e expressos por meio de um número. são dados com um determinado número, quantidade ou intervalo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

o que são dados discretos?

A

dados discretos são dados contados e com um número limitado de valores. quando medições parciais (como meia estrela e meio ponto) não são permitidas, os dados são discretos. se nada além de valores completos é aceito, os dados são discretos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

o que são dados contínuos?

A

dados contínuos são dados que podem ser medidos e que pode ter qualquer valor numérico, incluindo várias casas decimais

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

o que são dados nominais?

A

dados nominais são um tipo de dado qualitativo categorizado sem uma ordem definida, ou seja, são dados que não têm uma sequência

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

o que são dados ordinais?

A

dados ordinais são um tipo de dado qualitatido categorizado em uma ordem ou uma escala definida

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

o que são dados internos?

A

dados internos são dados armazenados nos próprios sistemas de uma empresa

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

o que são dados externos?

A

dados externos são dados armazenados e gerados fora de uma empresa

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

o que são dados estruturados?

A

dados estruturados são dados organizados em determinado formato, como linhas e colunas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

o que são dados não estruturados?

A

dados não estruturados são dados que não estão organizados de maneira facilmente identificável. o conteúdo de dados não estruturados não é identificado ou organizado de maneira clara

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

o que são dados primários?

A

dados primários são dados coletados por um pesquisador de fontes em primeira mão

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

o que são dados secundários?

A

dados secundários são dados coletados por outras pessoas ou em outras pesquisas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

o que são elementos de dados?

A

elementos de dados são informações, como nome de pessoas, números de conta e endereços

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

o que é um modelo de dados (data model)?

A

modelo de dados é um modelo usado para organizar elementos de dados e o modo como eles se relacionam entre si. modelo de dados mantém os dados consistentes e fornece um mapa do modo como os dados são organizados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

o que é modelagem de dados?

A

modelagem de dados é o processo de criação de diagramas que representam visualmente o modo como os dados são organizados e estruturados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

quais são os três tipos mais comuns de modelagem de dados?

A

modelagem conceitual, modelagem lógica e modelagem física

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

o que é modelagem conceitual?

A

modelagem conceitual fornece uma visão ampla da estrutura de dados, como o modo como os dados interagem em uma organização

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

o que é modelagem lógica?

A

modelagem lógica concentra-se nos detalhes técnicos de um banco de dados, como relacionamentos, atributos e entidades

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

o que é modelagem física?

A

modelagem física descreve como um banco de dados funciona e define todas as entidades e os atributos utilizados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

o que é um tipo de dado?

A

um tipo de dado (data type) é um tipo específico de atributo de dados que informa qual é o tipo de valor de dados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

quais são os três tipos de dados?

A

número
texto ou string
booleano

29
Q

como são chamadas as linhas de uma tabela?

A

registro

30
Q

como são chamadas as colunas de uma tabela?

A

campo

31
Q

o que são dados amplos (wide data)?

A

cada indivíduo está contido em uma linha com várias colunas, que armazenam os valores dos vários atributos do indivíduo

32
Q

o que são dados longos (long data)?

A

cada linha representa um ponto no tempo por indivíduo, de modo que cada indivíduo tem várias linhas de dados

33
Q

o que é transformação de dados?

A

transformação de dados é o processo de alteração de formato, estrutura ou valor dos dados, que geralmente envolve: adicionar, copiar ou replicar dados; excluir campos ou registros; padronizar o nome das variáveis; renomear, mover ou combinar colunas; unir um conjunto de dados a outro; salvar um arquivo em formato diferente

34
Q

o que são viés de dados (data bias)?

A

viés de dados é um tipo de erro que distorce sistematicamente os resultados em determinada direção

35
Q

o que é viés de amostragem (sampling bias)?

A

viés de amostragem ocorre quando uma amostra não é representativa da população como um todo. um modo de evitar esse viés é certificar-se de que a amostra seja colhida aleatoriamente, para que todas as partes da população sejam igualmente incluídas

36
Q

o que é viés de observador (observer bias)?

A

viés de observador é a tendência segundo a qual diferentes pessoas observam as coisas de jeitos diferentes

37
Q

o que é viés de interpretação (interpretation bias)?

A

viés de interpretação é a tendência de sempre interpretar situações ambíguas de forma positiva ou negativa

38
Q

o que é viés de confirmação (confirmation bias)?

A

viés de confirmação é a tendência de procurar ou de interpretar informações de forma que elas confirmem crenças preexistentes

39
Q

como é feita a identificação de boas fontes de dados?

A

por meio do processo ROCCC

R: reliable. fontes boas contêm informações precisas, completas e imparciais, que foram verificadas
O: original. se foram obtidos de uma fonte secundária ou terciária, os dados devem ser validados com a fonte original
C: comprehensive. as melhores fontes de dados contêm todas as informações críticas necessárias para responder à pergunta ou encontrar a solução
C: current. a utilidade dos dados diminui com o passar do tempo
C: cited citar as informações que você fornece as torna mais confiáveis. para isso, se faça três perguntas: quem criou o conjunto de dados? essa pessoa faz parte de uma organização confiável? quando os dados foram atualizados pela última vez?

40
Q

o que é ética de dados?

A

ética de dados se refere a padrões bem fundamentados de certo e errado que determinam como os dados são coletados, compartilhados e usados

41
Q

quais são os seis aspectos da ética de dados?

A

ownership, transaction transparency, consent, currency, privacy and openness

42
Q

o que é propriedade (ownership)?

A

o dono dos dados são os indivíduos cujos dados brutos foram fornecidos e que têm controle primário sobre o seu uso, manuseio e compartilhamento

43
Q

o que é transparência de transações (transaction transparency)?

A

é a ideia de que todas as atividades e todos os algoritmos de processamento de dados devem ser totalmente explicáveis e compreensíveis pelo indivíduo que fornece seus dados

44
Q

o que é consentimento (consent)?

A

é o direito do indivíduo de saber detalhes explícitos do modo como e do motivo pelo qua seus dados serão usados antes de concordar em fornecê-los

45
Q

o que é moeda (currency)?

A

indivíduos devem estar cientes das transações financeiras resultantes da utilização de seus dados pessoais e da escala dessas transações

46
Q

o que é privacidade (privacy)?

A

significa preservar as informações e as atividades do titular dos dados sempre que ocorre uma transação de dados. trata-se do acesso, do uso e da coleta de dados e abrange o direito legal de uma pessoa aos seus dados. para os indivíduos, privacidade significa proteção contra o acesso não autorizado aos nossos dados privados, liberdade contra o uso inapropriado de nossos dados, direito de inspecionar, atualizar e corrigir os dados, capacidade de dar consentimento para o uso de nossos dados e direito legar para acessar nossos dados

47
Q

o que é abertura (openness)?

A

é o livre acesso, a utilização e a partilha de dados. dados abertos (open data) devem estar completamente disponíveis, de preferência por meio de download de forma conveniente e modificável (availability and access); devem ser fornecidos sob termos que permitam a reutilização e a redistribuição, incluindo a capacidade de usá-los com outros conjuntos de dados (reuse and redistribution); e devem estar disponíveis para uso, reuso e distribuição, sem que haja discrimição contra áreas, pessoas e grupos (universal participation)

48
Q

o que é personally identifiable information?

A

personally identifiable information (PII) são informações que podem ser usadas sozinhas ou em conjunto com outros dados para identificar uma pessoa

49
Q

o que é anonimização de dados?

A

anonimização de dados é o processo de proteção dos dados privados ou confidenciais das pessoas que elimina esse tipo de informação. geralmente, a anonimização envolve blanking, hashing ou masking informações pessoais

50
Q

o que é de-identification?

A

de-identification é o processo usado para limpar os dados de todas as informações de identificação pessoal

51
Q

o que é interoperability?

A

interoperability é a capacidade de sistemas de serviço de dados se conectarem e compartilharem dados abertamente. para isso, os bancos de dados devem ser compatíveis

52
Q

o que é um banco de dados?

A

banco de dados é uma coleção de dados armazenada em um sistema de computadores

53
Q

o que são metadados?

A

metadados são dados que tratam de dados. eles informam de onde vêm os dados, quando e como foram criados e do que se trata

54
Q

o que é um banco de dados relacional?

A

é um banco de dados que contém uma série de tabelas relacionadas conectadas por meio de seus relacionamentos. para que duas tabelas tenham um relacionamento, devem existir um ou mais campos iguais dentro de ambas as tabelas

55
Q

o que é uma chave primária (primary key)?

A

chave primária é um identificador que faz referência a uma coluna na qual cada valor é único, ou seja, é um identificador exclusivo para cada linha de uma tabela. ela não pode ser nula ou em branco. apenas uma chave primária é permitida em uma tabela, mas nem todas as tabelas necessitam de uma chave primária

56
Q

o que é uma chave estrangeira (foreign key)?

A

chave estrangeira é um campo dentro de uma tabela que é uma chave primária em outra tabela, ou seja, é o modo pelo qual uma tabela pode ser conectada a outra. pode haver várias chaves estrangeiras em uma tabela

57
Q

o que é normalização (normalization)?

A

normalização é processo de organização de dados em um banco de dados relacional, como criar tabelas e estabelecer relacionamentos entre essas tabelas. é aplicado para eliminar dados redundantes, aumentar a integridade dos dados e reduzir a complexidade de um banco de dados

58
Q

o que são metadados descritivos?

A

metadados descritivos são metadados que descrevem um dado e que podem ser usados para identificá-lo posteriormente, como o ISBN, o autor e o título de um livro

59
Q

o que são metadados estruturais?

A

metadados estruturais são metadados que indicam como um dado é organizado e se ele faz parte de uma (ou mais) coletânea de dados, como as páginas de um livro que se organizam em um capítulo. metadados estruturais controlam o relacionamento entre duas coisas

60
Q

o que são metadados administrativos?

A

metadados administrativos são metadados que indicam a origem técnica de um ativo digital (digital asset), como os metadados de uma foto

61
Q

quais são os elementos dos metadados?

A

tipo de arquivo ou documento
data, hora e criador
título e descrição
geolocalização
tags e categorias
quem o modificou pela última vez e quando
quem pode acessá-lo e atualizá-lo

62
Q

o que são repositórios de metadados?

A

repositórios de metadados são bancos de dados especializados criados especificamente para armazenar e gerenciar metadados. repositórios descrevem a origem dos metadados e os armazenam de forma acessível com uma estrutura comum

63
Q

o que é governança de dados (data governance)?

A

governança de dados é o processo que garante a gestão formal dos ativos de dados de uma empresa, o que proporciona um melhor controle dos seus dados e o gerenciamento de questões relacionadas à segurança e à privacidade dos dados, à integridade, à usabilidade e a fluxos de dados internos e externos. governança de dados envolve mais do que a padronização de terminologias e procedimentos; inclui ainda as funções e as responsabilidades das pessoas que trabalham com metadados

64
Q

o que é CSV?

A

comma-separated values

65
Q

como manter os dado organizados?

A

por meio das convenções de nomenclatura, da organização em pastas e do arquivamento de arquivos antigos

66
Q

o que é segurança de dados?

A

segurança de dados significa proteger os dados contra acesso não autorizado ou corrupção por meio da adoção de medidas de segurança

67
Q

o que é criptografia?

A

a criptografia usa um algoritmo exclusivo para alterar os dados e torná-los inúteis para usuários e aplicativos que não conhecem o algoritmo

68
Q

o que é tokenização?

A

a tokenização substitui os elementos de dados que você deseja proteger por dados gerados aleatoriamente, chamados de “token”