Dados Flashcards
O que são metadados?
Dados que descrevem outros dados. Podem estar inclusos no código ou fora deles. São flexíveis e ajudam a indexar os dados.
O que é o Dublin Core?
Esquema de metadados criado pela Dublin Core Metadata Initiative (DCMI). Tem como carcterísticas:
Simplicidade, Interoperabilidade Semântica, Consenso Internacional, Extensibilidade e Modularidade.
Quais são os 15 elementos do Dublin core?
Title, Creator, Subject, Description,
Publisher, Other Contributors, Date, Resource Type, Format, Identifier, Source, Language, Relation, Coverage, Rights
O que é o OAI-PMH?
Open Archives Initiative Protocol for
Metadata Harvesting:
* Protocolo desenvolvido para facilitar a coleta e intercâmbio de
metadados entre repositórios de informações
* Modelo cliente-servidor:
* Provedores de dados (data providers) expõem metadados
* Provedores de serviços (service providers) coletam metadados
* Utiliza XML para a representação dos metadados
* Compatível com Dublin Core
O processo de busca automática, coleta de dados e construção de índices é conhecido como?
Harvesting.
Quais as classificações dos metadados?
Metadados descritivos
* Detalham um recurso digital para localização, identificação ou
compreensão
* Exemplos: título, autor e assunto
Metadados estruturais
* Explicitam a estrutura interna do arquivo digital e as relações hierárquicas
de partes integrantes de recursos entre si
* Exemplos: ordem e lugar na hierarquia
Metadados administrativos
* Fornecem informações que apoiam a gestão do ciclo de vida (criação,
seleção, descrição etc.) dos recursos informacionais.
Subdividem em:
- Metadados técnicos – indicam os aspectos e as dependências técnicas de um arquivo
digital para decodificá-lo e renderizá-lo - Metadados de preservação:
- Informações necessárias para preservar e manter a integridade e acessibilidade dos dados ao longo do tempo
- Armazena conteúdo, contexto, estrutura de produção e possíveis alterações
ocorridas - Exemplos: datas de criação e modificação, proprietários, permissões de
acesso, e políticas de retenção de dados - Metadados de direitos – documentam informações para apoio à gestão dos direitos de propriedade intelectual associados a um conteúdo
O que é Normalização de dados?
Trazer todos os dados numéricos para a mesma escala (entre zero e um).
Fórmula min-máx:
X’ = (X - Xmin)/(Xmax - Xmin)
O que é padronização?
Uso do z-score para obter uma variável aleatória com média 0 e desvio padrão 1 (distribuição normal).
Fórmula:
Z = (X - média)/desvio padrão
O que é discretização?
- Transformação de dados em escala contínua em escala discreta.
- Objetivo de limitar o número de estados de um atributo.
- É uma forma de classificação, onde os intervalos discretos podem receber
“nomes”
-> Discretização de Largura Igual (Equal-width Discretization):
* Divide o intervalo de valores da variável em k intervalos de largura
igual.
* Não garante que cada intervalo terá o mesmo número de observações.
-> Discretização de Frequência Igual (Equal-frequency Discretization):
* Também conhecida como discretização por quantis.
* Divide os dados em k intervalos de forma que cada intervalo contenha
aproximadamente o mesmo número de observações.
* Útil para criar intervalos balanceados.
-> Discretização Binária (Binary Discretization):
* Transforma uma variável contínua em uma variável categórica com
duas categorias.
* Comum para problemas de classificação binária ou transformação de
um problema de regressão em um problema de classificação.
ex.: função logística
-> Discretização por Entropia (Entropy-based Discretization):
* Utiliza a entropia para dividir a variável em intervalos que maximizam a
homogeneidade de classes dentro de cada intervalo.
* Frequentemente usada em algoritmos de árvore de decisão.
-> Discretização por Clustering:
* Utiliza algoritmos de clustering, como K-Means, para agrupar dados em
intervalos.
* Os clusters formam os intervalos discretos.
* Não garante que os intervalos tenham o mesmo número de
observações.
-> Discretização por Intervalos de Probabilidade (Probability Intervals
Discretization):
* Baseia-se na distribuição de probabilidade dos dados.
* Cria intervalos com base em percentis, mas não gararnte distrituições iguais.
Qual nova área de conhecimento foi criada no Guia DAMA-DMBOKv2?
Integração de dados e interoperabilidade.
Os elementos ambientais básicos definem cada área de conhecimento ou função da Gestão de Dados presentes no guia DAMA-DMBOK. São considerados alguns destes elementos:
Metas e princípios; atividades; e, papéis e responsabilidades.
Os tipos de modelos operacionais de governança de dados discutidos no DAMA-DMBOK2 são
centralizado, replicado e federado.
Para a governança de dados, a administração de dados é a área responsável pela qualidade e pelo ciclo de vida dos dados dentro de uma organização. Certo ou errado?
Certo.
Descreva as principais técnicas em qualidade de dados:
1 - Data Profiling
2 - Matching
3 - Deduplicação
4 - Data Cleansing
5 - Enriquecimento de dados
1 - Data Profiling
* Análise de dados usada para inspecionar dados e assegurar a qualidade.
* Gera uma série de estatísticas para análise:
* Contagem de nulls.
* Valor máximo e mínimo.
* Distribuição de frequência.
* Tipo de dados e formato.
* Avalia:
* Análise entre colunas de dados (sobreposições e duplicações).
* Dependência entre valores.
* Relacionamentos de chaves.
* Qualidade de dados e de metadados
2 - Matching
* É a avaliação se mais de um registro de uma base representa a
mesma entidade do mundo real.
* Utilizado para avaliar a duplicação de dados.
* Pode ser feito por algoritmos determinísticos ou estatísticos.
3 - Deduplicação
* Eliminação de cópias duplicadas de dados.
* Os dados repetidos são resumidos a apenas uma cópia, a qual é
referenciada diversas vezes.
4 - Data Cleansing
* Técnica de tratamento e limpeza de dados.
* Etapas:
* Auditoria de dados.
* Especificação do fluxo de trabalho.
* Execução do fluxo.
* Pós-processamento e controle.
5 - Enriquecimento de dados
* É o processo de melhorar a qualidade de uma base de dados por
meio da inserção de dados de outra fonte de informação.
* Correção, atualização, higienização e reorganização de registros
defasados ou ausentes.
Qual é o método de suavização de dados,
que minimiza os efeitos causados pelos dados ruidosos?
dividir os valores dos dados originais em pequenos intervalos, denominados compartimentos, e, em
seguida, substituí-los por um valor geral, ou genérico, calculado para cada compartimento específico.
Quais são as etapas do processo de preparação de dados?
- Identificação e coleta de dados.
- Análise exploratória.
- Limpeza dos dados.
- Rotulagem de dados (Especialmente em visão computacional, PLN e reconhecimento de fala)
- Transformação de dados.
- Redução de dimensionalidade.
- Redução de casos.
- Enriquecimento de dados.
- Validação e visualização.v
Como dividir seu conjunto de dados: Treino, teste e validação?
Geralmente, separamos a maior parte do conjunto de dados para treino, e uma parte menor para teste e validação. O tamanho destas últimas deve ser significativo, pelo menos 10% do conjunto de dados total. As proporções variam caso a caso, mas na dúvida, podemos adotar a seguinte proporção:
70% dos dados para treino
15% dos dados para teste
15% dos dados para validação
Os dados de treino servem para treinar o modelo. No caso, o modelo irá aprender a partir desses dados e eles têm que estar separados da validação e teste, para evitar overfitting.
Os dados de teste, servem para calcularmos o desempenho do modelo, acurácia e etc. É com esse conjunto que saberemos se o modelo realmente está aprendendo ou não alguma coisa com o conjunto de dados e o usaremos como métrica para avaliar o modelo.
Já os dados de validação são para teste de hiperparâmetros ou outros modelos. Se você quiser, pode usar o conjunto de teste e validação como o mesmo conjunto, é uma forma de abordar. Em redes neurais, por exemplo, podemos usar o conjunto de validação para testar número de neurônios da camada escondida, função ativação, e outros hiperparâmetros.
O que são as seguintes técnicas de amostragem?
Probabilística:
1 - Aleatórira (casual) simples
2 - Sistemática
3 - Estratificada
4 - Por conglomerados
Não probabilística:
5 - A esmo
6 - Intecional (por julgamento)
7 - Por cotas
9 - Bola de neve
Ao contrário da não probabilística, a probabilistica tem acesso a toda a população, e é feita através de um sorteio não viciado.
Probabilística:
1 - Aleatórira (casual) simples: feita por sorteio não viciado.
2 - Sistemática: escolhe-se aleatoriamente o primeiro, e depois segue de tantos em tantos. Ex.: pegar um a cada 100 de toda a população.
3 - Estratificada: estratifica a amostra de acordo com grupos de características similares e faz um sorteio dentro desses grupos.
4 - Por conglomerados: parecido com a estratificada, mas os grupos são escolhidos de forma mais arbitrária.
Não probabilística:
5 - A esmo: indivíduos escolhidos ao acaso.
6 - Intecional (por julgamento): indivíduos escolhidos intencionalmente, por se pensar que compoem um grupo representativo da população.
7 - Por cotas: sorteio feito dentre grupos definidos.
9 - Bola de neve: pede aos ecolhidos ao acaso que indiquem outros escolhidos.
Quando ocorre o tratamento de um ou mais dados, é gerada a informação, a
qual constitui conhecimento quando aplicada em determinado contexto. Certo ou errado?
Certo.
Os termos CÉU e AZUL, quando utilizados separadamente, representam
dados, enquanto a expressão CÉU É AZUL representa uma informação. Certo ou errado?
Certo.
Diferencie os tipos de dados estruturados, semi-estruturados e não estruturados.
- Estruturados:
- Dados organizados em tabelas com colunas e linhas, como em um banco de dados relacional. Os tipos de cada atributo são definidos para cada coluna (int, varchar, etc.)
- Semiestruturados:
- Dados organizados de maneira que não seguem uma tabela rígida, mas têm alguma estrutura, como XML e JSON.
- Não Estruturados:
- Dados sem estrutura pré-definida, como texto livre, imagens, vídeos e som. Ex.: dados de redes sociais.
Caracterize os seguintes tipos de arquivo:
- TXT
- CSV
- XLSX
- XML
- JSON
- Parquet
- TXT (Texto Puro):
- Contém dados em formato de texto simples, sem estruturação formal além de quebras de
linha. É fácil de abrir, mas não é eficiente para grandes volumes de dados ou metadados. - CSV (Comma-Separated Values):
- Armazena dados tabulares em texto simples, onde os valores são separados por vírgulas (ou outro delimitador, como ponto e vírgula).
- É amplamente utilizado por sua simplicidade e compatibilidade com muitos sistemas, mas não lida bem com dados complexos ou hierárquicos.
- Estrutura: linha
- obs.: ao colocar um texto entre aspas, eles ignora o separador
- XLSX (Excel):
- Formato binário utilizado pelo Microsoft Excel para armazenar planilhas.
- Permite a formatação rica e o uso de fórmulas, mas pode ser mais difícil de manipular em sistemas automatizados por ser um formato binário mais complexo.
- XML (Extensible Markup Language):
- Usado para armazenar dados de forma estruturada e hierárquica - utiliza <tags> que podem aninhar outras </tags>.
- Amplamente utilizado para intercâmbio de dados entre sistemas, embora possa ser verboso e difícil de manipular
em grandes volumes. - JSON (JavaScript Object Notation):
- Formato leve e legível para humanos, comumente usado em APIs para a troca de dados entre sistemas.
- Suporta estruturas hierárquicas, sendo mais eficiente que o XML em muitos casos - utiliza a estrutura chave-valor.
- Estrutura: hierárquico
- Parquet:
- Formato de armazenamento de dados em colunas, otimizado para leitura e escrita eficiente em grandes volumes
de dados - a leitura e manipulação de dados é feita por um subconjunto de colunas. - Usado frequentemente em big data e sistemas analíticos distribuídos (como Hadoop e Spark) por sua alta
performance. - Estrutura: colunar
- Alta compactação
Cite características de bancos de dados NoSQL.
*Not Only SQL.
*Bancos de dados distribuídos não relacionais.
* Trabalham com Big Data.
*Não possuem modelo de dados fixo.
*Não são orientados a objeto.
*Aceitam SQL.
* Trabalham com dados não estruturados e
semiestruturados, primariamente. (mas aceitam dados estruturados tbm)
*Aceitam diversos tipos de modelo de dados, incluindo schema-less.
*Dados distribuídos globalmente.
* É mais flexível e rápido.
* Escalabilidade horizontal.
* Não tem operação ACID
* Não tem normalização
* Não tem imunidade a SQL injection
O que é o esquema ACID de bancos de dados relacionais?
*Atomicidade:
* As transações são indivisíveis.
*Consistência:
* As regras de integridade devem ser respeitadas.
*Isolamento:
* Transações em paralelo não interferem umas nas outras.
*Durabilidade:
* As transações devem persistir em um banco de dados.
O que diz o teorema CAP relacionado a bancos de dados NoSQL?
- Teorema de Brewer.
- É impossível que o armazenamento de dados distribuído
forneça simultaneamente mais de duas das três garantias
seguintes: - Consistência:
- Os clientes veem os mesmos dados em um instante de tempo.
- Os dados gravados em um nó devem ser distribuídos para outro nó para
que a transação seja finalizada. - Disponibilidade (availability):
- Cada pedido recebe uma resposta (sem erro).
- Partição tolerante a falhas:
- O cluster deve continuar a funcionar mesmo de ocorrer uma ou mais
falhas de comunicação entre os nós no sistema.
O que é a propriedade BASE de bancos de dados NoSQL?
*BASE (Basically Available, Soft State with Eventual
Consistency).
* Valoriza a disponibilidade sobre a consistência.
* Basically Available:
* Operações de escrita e leitura estão disponíveis, mas sem
consistência automática.
* Soft State:
* O estado dos dados não é garantido sem consistência.
* Eventual Consistency:
* Alterações em um banco dados não são propagadas de forma
imediata.
Quais são os tipos de bancos NoSQL?
- Chave-Valor:
- Redis, DynamoDB, Riak, Tokyo Cabinet/Tyrant, Voldemort, Memcached, Scalaris, Amazon SimpleDB e Oracle BDB.
- Documentos:
- MongoDB, Elasticsearch, Azure Cosmos DB, DocumentDB, CouchDB, CouchBase, RavenDB, OrientDB, IBM Cloudant, CrateDB, BaseX e Lotus
Notes. - Graph:
- Neo4j, Neptune, HyperGraphDB, Infinite Graph, JanusGraph, InfoGrid, Titan e FlockDB.
- Colunar:
- Cassandra, HBASE, Bigtable e Hypertable.
O que é o modelo NoSQL orientado a grafos?
*Armazenam, mapeiam e procuram
relacionamentos entre nós por meios
de arestas.
*Nós são elementos de dados.
*Arestas são relacionamentos.
Quando usar o modelo orientado a grafos?
- Dados de redes sociais.
- Detecção de fraudes.
- Logística (ex.: Waze).
O que é a Gremlin?
Linguagem específica para percorrer grafos com padrão Blueprint.
Neo4J respeita ACID?
Sim, apesar de ser NoSQL.
Qual linguagem o Neo4j utiliza?
Cypher query language
o que fazem os seguintes comandos na Cypher Query Language?
MATCH
CREATE
SET
RETURN
DELETE
DETACH DELETE
REMOVE
- MATCH:
- Faz pesquisa e retorna nós e relacionamentos.
- Segue o padrão:
- (um nó)-[relacionado]->(com outro nó)
- CREATE:
- Cria nós e relacionamentos.
- SET:
- Muda as propriedades.
- RETURN:
- Retorna as consultas feitas com o match.
- DELETE:
- Apaga nós e relacionamentos.
- DETACH DELETE:
- Apaga um nó e seus relacionamentos.
- REMOVE:
- Remove propriedades.
O que o seguinte código em Cypher faz?
- CREATE (u1:Usuário {Nome: “Usuário 1”, Id: 1 })
- CREATE (u2:Usuário {Nome: “Usuário 2”, Id: 2 })
- CREATE (m1:ModuloSistema {Nome: “Compras”})
- CREATE (m2:ModuloSistema {Nome: “Financeiro”})
- CREATE (u1)-[r1:PosssuiAcesso {NívelAcesso: “escrita”}]->(m1)
- CREATE (u1)-[r2:PosssuiAcesso {NívelAcesso: “leitura”}]->(m1)
- CREATE (u2)-[r3:PosssuiAcesso {NívelAcesso: “administrador”}]->(m1)
- CREATE (u2)-[r4:PosssuiAcesso {NívelAcesso: “escrita”}]->(m2)
Cria dois usuários, com nome e id. Cria dois módulos de sistema. Cria relacionamentos de tipos de acesso que cada usuário tem para cada módulo do sistema.
O que o seguinte código em Cypher faz?
MATCH (u:Usuário), (m:ModuloSistema) return *
retorna todos os relacionamento entre usuário e módulo do sistema.
O que é o modelo NoSQL orientado a colunas?
*Armazena os dados como uma coleção de colunas conhecida como família. Podem ter supercolunas e outras subcolunas (como se fosse uma mesclagem de células no Excel).
* Linhas não precisam ter as mesmas colunas.
*Cada coluna é tratada (consultada, lida, agregada) separadamente.