prepare data for exploration Flashcards
curso 3
o que são dados e como eles são gerados?
cada informação são dados. todos esses dados são geralmente gerados como resultado da nossa atividade no mundo
o que são cookies?
cookies são pequenos arquivos armazenados em computadores que contêm informações sobre os usuários. cookies informam aos anunciantes sobre os interesses e hábitos pessoais dos usuários com base em sua navegação online, sem os identificar pessoalmente
o que é first-party data?
first-party data são dados coletados por um indivíduo ou um grupo usando os seus próprios recursos
o que é second-party data?
second-party data são dados coletados por um grupo diretamente de seu público e depois vendidos
o que é third-party data?
dados coletados de fontes externas, que não os coletaram diretamente
o que é população?
população refere-se a todos os valores de dados possíveis em um determinado conjunto de dados
o que é amostra?
amostra refere-se à parte de uma população que é representativa da população
o que são dados qualitativos?
dados qualitativos são uma medida subjetiva e explicativa de uma qualidade ou característica e não podem ser contados, medidos ou facilmente expressos por meio de números. geralmente, são listados como nome, categoria ou descrição
o que são dados quantitativos?
dados quantitativos são uma medida específica e objetiva e podem ser medidos ou contados e expressos por meio de um número. são dados com um determinado número, quantidade ou intervalo
o que são dados discretos?
dados discretos são dados contados e com um número limitado de valores. quando medições parciais (como meia estrela e meio ponto) não são permitidas, os dados são discretos. se nada além de valores completos é aceito, os dados são discretos
o que são dados contínuos?
dados contínuos são dados que podem ser medidos e que pode ter qualquer valor numérico, incluindo várias casas decimais
o que são dados nominais?
dados nominais são um tipo de dado qualitativo categorizado sem uma ordem definida, ou seja, são dados que não têm uma sequência
o que são dados ordinais?
dados ordinais são um tipo de dado qualitatido categorizado em uma ordem ou uma escala definida
o que são dados internos?
dados internos são dados armazenados nos próprios sistemas de uma empresa
o que são dados externos?
dados externos são dados armazenados e gerados fora de uma empresa
o que são dados estruturados?
dados estruturados são dados organizados em determinado formato, como linhas e colunas
o que são dados não estruturados?
dados não estruturados são dados que não estão organizados de maneira facilmente identificável. o conteúdo de dados não estruturados não é identificado ou organizado de maneira clara
o que são dados primários?
dados primários são dados coletados por um pesquisador de fontes em primeira mão
o que são dados secundários?
dados secundários são dados coletados por outras pessoas ou em outras pesquisas
o que são elementos de dados?
elementos de dados são informações, como nome de pessoas, números de conta e endereços
o que é um modelo de dados (data model)?
modelo de dados é um modelo usado para organizar elementos de dados e o modo como eles se relacionam entre si. modelo de dados mantém os dados consistentes e fornece um mapa do modo como os dados são organizados
o que é modelagem de dados?
modelagem de dados é o processo de criação de diagramas que representam visualmente o modo como os dados são organizados e estruturados
quais são os três tipos mais comuns de modelagem de dados?
modelagem conceitual, modelagem lógica e modelagem física
o que é modelagem conceitual?
modelagem conceitual fornece uma visão ampla da estrutura de dados, como o modo como os dados interagem em uma organização
o que é modelagem lógica?
modelagem lógica concentra-se nos detalhes técnicos de um banco de dados, como relacionamentos, atributos e entidades
o que é modelagem física?
modelagem física descreve como um banco de dados funciona e define todas as entidades e os atributos utilizados
o que é um tipo de dado?
um tipo de dado (data type) é um tipo específico de atributo de dados que informa qual é o tipo de valor de dados
quais são os três tipos de dados?
número
texto ou string
booleano
como são chamadas as linhas de uma tabela?
registro
como são chamadas as colunas de uma tabela?
campo
o que são dados amplos (wide data)?
cada indivíduo está contido em uma linha com várias colunas, que armazenam os valores dos vários atributos do indivíduo
o que são dados longos (long data)?
cada linha representa um ponto no tempo por indivíduo, de modo que cada indivíduo tem várias linhas de dados
o que é transformação de dados?
transformação de dados é o processo de alteração de formato, estrutura ou valor dos dados, que geralmente envolve: adicionar, copiar ou replicar dados; excluir campos ou registros; padronizar o nome das variáveis; renomear, mover ou combinar colunas; unir um conjunto de dados a outro; salvar um arquivo em formato diferente
o que são viés de dados (data bias)?
viés de dados é um tipo de erro que distorce sistematicamente os resultados em determinada direção
o que é viés de amostragem (sampling bias)?
viés de amostragem ocorre quando uma amostra não é representativa da população como um todo. um modo de evitar esse viés é certificar-se de que a amostra seja colhida aleatoriamente, para que todas as partes da população sejam igualmente incluídas
o que é viés de observador (observer bias)?
viés de observador é a tendência segundo a qual diferentes pessoas observam as coisas de jeitos diferentes
o que é viés de interpretação (interpretation bias)?
viés de interpretação é a tendência de sempre interpretar situações ambíguas de forma positiva ou negativa
o que é viés de confirmação (confirmation bias)?
viés de confirmação é a tendência de procurar ou de interpretar informações de forma que elas confirmem crenças preexistentes
como é feita a identificação de boas fontes de dados?
por meio do processo ROCCC
R: reliable. fontes boas contêm informações precisas, completas e imparciais, que foram verificadas
O: original. se foram obtidos de uma fonte secundária ou terciária, os dados devem ser validados com a fonte original
C: comprehensive. as melhores fontes de dados contêm todas as informações críticas necessárias para responder à pergunta ou encontrar a solução
C: current. a utilidade dos dados diminui com o passar do tempo
C: cited citar as informações que você fornece as torna mais confiáveis. para isso, se faça três perguntas: quem criou o conjunto de dados? essa pessoa faz parte de uma organização confiável? quando os dados foram atualizados pela última vez?
o que é ética de dados?
ética de dados se refere a padrões bem fundamentados de certo e errado que determinam como os dados são coletados, compartilhados e usados
quais são os seis aspectos da ética de dados?
ownership, transaction transparency, consent, currency, privacy and openness
o que é propriedade (ownership)?
o dono dos dados são os indivíduos cujos dados brutos foram fornecidos e que têm controle primário sobre o seu uso, manuseio e compartilhamento
o que é transparência de transações (transaction transparency)?
é a ideia de que todas as atividades e todos os algoritmos de processamento de dados devem ser totalmente explicáveis e compreensíveis pelo indivíduo que fornece seus dados
o que é consentimento (consent)?
é o direito do indivíduo de saber detalhes explícitos do modo como e do motivo pelo qua seus dados serão usados antes de concordar em fornecê-los
o que é moeda (currency)?
indivíduos devem estar cientes das transações financeiras resultantes da utilização de seus dados pessoais e da escala dessas transações
o que é privacidade (privacy)?
significa preservar as informações e as atividades do titular dos dados sempre que ocorre uma transação de dados. trata-se do acesso, do uso e da coleta de dados e abrange o direito legal de uma pessoa aos seus dados. para os indivíduos, privacidade significa proteção contra o acesso não autorizado aos nossos dados privados, liberdade contra o uso inapropriado de nossos dados, direito de inspecionar, atualizar e corrigir os dados, capacidade de dar consentimento para o uso de nossos dados e direito legar para acessar nossos dados
o que é abertura (openness)?
é o livre acesso, a utilização e a partilha de dados. dados abertos (open data) devem estar completamente disponíveis, de preferência por meio de download de forma conveniente e modificável (availability and access); devem ser fornecidos sob termos que permitam a reutilização e a redistribuição, incluindo a capacidade de usá-los com outros conjuntos de dados (reuse and redistribution); e devem estar disponíveis para uso, reuso e distribuição, sem que haja discrimição contra áreas, pessoas e grupos (universal participation)
o que é personally identifiable information?
personally identifiable information (PII) são informações que podem ser usadas sozinhas ou em conjunto com outros dados para identificar uma pessoa
o que é anonimização de dados?
anonimização de dados é o processo de proteção dos dados privados ou confidenciais das pessoas que elimina esse tipo de informação. geralmente, a anonimização envolve blanking, hashing ou masking informações pessoais
o que é de-identification?
de-identification é o processo usado para limpar os dados de todas as informações de identificação pessoal
o que é interoperability?
interoperability é a capacidade de sistemas de serviço de dados se conectarem e compartilharem dados abertamente. para isso, os bancos de dados devem ser compatíveis
o que é um banco de dados?
banco de dados é uma coleção de dados armazenada em um sistema de computadores
o que são metadados?
metadados são dados que tratam de dados. eles informam de onde vêm os dados, quando e como foram criados e do que se trata
o que é um banco de dados relacional?
é um banco de dados que contém uma série de tabelas relacionadas conectadas por meio de seus relacionamentos. para que duas tabelas tenham um relacionamento, devem existir um ou mais campos iguais dentro de ambas as tabelas
o que é uma chave primária (primary key)?
chave primária é um identificador que faz referência a uma coluna na qual cada valor é único, ou seja, é um identificador exclusivo para cada linha de uma tabela. ela não pode ser nula ou em branco. apenas uma chave primária é permitida em uma tabela, mas nem todas as tabelas necessitam de uma chave primária
o que é uma chave estrangeira (foreign key)?
chave estrangeira é um campo dentro de uma tabela que é uma chave primária em outra tabela, ou seja, é o modo pelo qual uma tabela pode ser conectada a outra. pode haver várias chaves estrangeiras em uma tabela
o que é normalização (normalization)?
normalização é processo de organização de dados em um banco de dados relacional, como criar tabelas e estabelecer relacionamentos entre essas tabelas. é aplicado para eliminar dados redundantes, aumentar a integridade dos dados e reduzir a complexidade de um banco de dados
o que são metadados descritivos?
metadados descritivos são metadados que descrevem um dado e que podem ser usados para identificá-lo posteriormente, como o ISBN, o autor e o título de um livro
o que são metadados estruturais?
metadados estruturais são metadados que indicam como um dado é organizado e se ele faz parte de uma (ou mais) coletânea de dados, como as páginas de um livro que se organizam em um capítulo. metadados estruturais controlam o relacionamento entre duas coisas
o que são metadados administrativos?
metadados administrativos são metadados que indicam a origem técnica de um ativo digital (digital asset), como os metadados de uma foto
quais são os elementos dos metadados?
tipo de arquivo ou documento
data, hora e criador
título e descrição
geolocalização
tags e categorias
quem o modificou pela última vez e quando
quem pode acessá-lo e atualizá-lo
o que são repositórios de metadados?
repositórios de metadados são bancos de dados especializados criados especificamente para armazenar e gerenciar metadados. repositórios descrevem a origem dos metadados e os armazenam de forma acessível com uma estrutura comum
o que é governança de dados (data governance)?
governança de dados é o processo que garante a gestão formal dos ativos de dados de uma empresa, o que proporciona um melhor controle dos seus dados e o gerenciamento de questões relacionadas à segurança e à privacidade dos dados, à integridade, à usabilidade e a fluxos de dados internos e externos. governança de dados envolve mais do que a padronização de terminologias e procedimentos; inclui ainda as funções e as responsabilidades das pessoas que trabalham com metadados
o que é CSV?
comma-separated values
como manter os dado organizados?
por meio das convenções de nomenclatura, da organização em pastas e do arquivamento de arquivos antigos
o que é segurança de dados?
segurança de dados significa proteger os dados contra acesso não autorizado ou corrupção por meio da adoção de medidas de segurança
o que é criptografia?
a criptografia usa um algoritmo exclusivo para alterar os dados e torná-los inúteis para usuários e aplicativos que não conhecem o algoritmo
o que é tokenização?
a tokenização substitui os elementos de dados que você deseja proteger por dados gerados aleatoriamente, chamados de “token”