Arquitectura de datos Flashcards

Quiz

1
Q

¿Qué tipos de datos se pueden analizar?

A

Estructurados, Semi Estructurados y No Estructurados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Características de los datos estructurados

A

Se almacenan en bases de datos relacionales (SQL) y Poseen un esquema predefinido (filas y columnas).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Ejemplos de datos estructurados

A
  • Datos de transacciones bancarias
  • Registros de clientes.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Características de los datos semiestructurados

A

No siguen un esquema rígido, pero tienen una organización parcial.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

¿Cómo se almacenan los datos semiestructurados?

A

En formatos como JSON, SML, YAML

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Ejemplos de datos semiestructurados

A

Documentos JSON en bases NoSQL y Logs de eventos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Características de datos no estructurados

A

No tienen un formato predefinido y son difíciles de almacenar en bases de datos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Ejemplos de datos no estructurados

A

Imágenes, videos, correos electrónicos y documentos de texto

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Características de los archivos JSON

A

Ligero, fácil de leer para humanos y máquinas, ampliamente usado en APIs REST.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Características de los archivos XML

A

Verboso, estructurado con etiquetas anidadas, usado en integraciones empresariales

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Características de los archivos YAML

A

Más legible para humanos, usa indentación en lugar de llaves o etiquetas, común en configuración de software

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

¿Qué tipo de procedencia pueden tener los datos?

A

Zero party data, 1st party data, 2nd party data, 3rd party data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Qué es Zero Party Data

A

Datos que el cliente da de forma voluntaria a la marca

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Ejemplo de Zero Party Data

A

Encuestas y Formularios

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Qué es 1st Party Data?

A

Datos recogidos por la compañía en su interacción con el cliente

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Ejemplo de 1st Party Data

A

Compras

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Qué es 2nd Party Data

A

1st party data de otra compañía con permisos para su uso mediante un acuerdo de partnership

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Ejemplos de 2nd party data

A

Partnership bancos y seguros

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Qué es 3rd party data?

A

Datos agregados recogidos sin el permiso explícito del usuario

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Ejemplos de 3rd party data

A

Datos de movilidad para el sector público

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

¿Qué es una base de datos?

A

Sistema organizado para recopilar, almacenar y gestionar datos. Está diseñada para permitir el acceso rápido y seguro a grandes cantidades de información. Facilita la manipulación y análisis de los datos almacenados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Ejemplos de programas para bases de datos relacionales

A

MySQL, SQLserver, Amazon Aurora, PostgreSQL, SQLite

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Tipos de bases de datos no relacionales

A

Documentales, clave-valor, columnas, grafos, vectoriales

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Programas para bases de datos no relacionales

A

MongoDB, Cassandra, Amazon DynamoDB, NEO4J

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Qué es una base de datos relacional?
Tipo de base de datos que: - organiza y almacena la información en tablas con filas y columnas - los datos están estructurados - pueden estar relacionados entre sí mediante claves primarias y claves foráneas.
26
Elementos de bases de datos relacionales
Tablas, Filas(registros), Columnas(Atributos) y Claves privadas/foraneas
27
Qué es una base de datos no relacional?
Una base de datos no relacional (NoSQL) es: - diseñada para manejar grandes volúmenes de datos de manera flexible - sin necesidad de estructuras fijas como tablas y esquemas rígidos, utilizadas en bases de datos relacionales.
28
Qué es una base de datos vectorial?
- sistema de almacenamiento y búsqueda optimizado para manejar datos representados como vectores de alta dimensión - permite comparaciones eficientes mediante métricas de similitud.
29
Qué metrica se usa para realizar búsquedas en una base de datos vectorial?
Distancia coseno
30
Qué es un data warehouse?
- Repositorio centralizado de datos que se recopilan de diferentes fuentes dentro de una organización - facilita el análisis y la generación de informes en la organización - Suelen estar estructurados, normalizados y optimizados para consultas analíticas.
31
Qué herramientas de Datawarehouse existen?
Google Big Query, Azure Synapse Analytics, Amazon Redshift, Snowflake
32
Qué es un datamart?
- Es un subconjunto de un datawarehouse - se centra en un área especifica de la empresa (ventas, marketing, etc) - Satisface las necesidades analíticas de un equipo en particular
33
Qué es un datalake?
- Sistema de almacenamiento de datos que permite almacenar grandes volúmenes de datos en su formato original sin transformación previa - Los datos pueden ser estructurados, semiestructurados o no estructurados - Los datos provienen de diferentes fuentes como sensores, aps, redes, etc.
34
Qué herramientas existen para Datalakes?
Amazon S3, Google Cloud Storage, Microsoft Azure Blob Storage
35
Cómo se opera con los datos?
Procesos ETL (Extract, transform, Load)
36
Qué microprocesos pasan en la fase Extract de ETL
* Conexión a orígenes de datos * Interconexión de orígenes de datos * Establecimiento de periodos de lectura * Establecimiento de bloqueos si procediera * Tratamiento errores
37
Qué microprocesos pasan en la fase Transform de ETL
* Normalización * Depuración * Estandarización * Simplificación * Limpieza * Complementación
38
Qué microprocesos pasan en la fase Load de ETL?
* Integración * Tratamiento excepciones * Volcado de datos
39
Qué pasa en la fase Extract de ETL?
Se recuperan y verifican los datos desde varias fuentes
40
Qué pasa en la fase Extract de ETL?
Procesa y organiza los datos para que sean útiles
41
Qué pasa en la fase Load de ETL?
Mueve los datos transformados a un repositorio de datos
42
Cuales son los componentes del end2end?
- Fuentes de datos - Ingesta - Almacenamiento y procesamiento - Análisis, Data Science, Machine Learning - Consumo y visualización - Seguridad y gobierno
43
6Vs de las fuentes de datos - End 2 End
Volumen, Variedad, Velocidad, Veracidad, Valor, Variabilidad
44
Cuales son los tipos de ingesta en End2End
Batch y Data Stream Processing
45
Qué es batch processing?
Proceso que se ejecuta periódicamente un proceso por lotes que se conecta a un origen e ingesta información de un periodo determinado
46
Qué es data stream o streaming?
Proceso que gestionado a través de colas de mensajes. Los datos son ingestados al mismo tiempo que se producen en el origen. Constan de un productor, un topic y un consumidor
47
Herramientas de Ingesta de datos
Talend, Oracle data integrator, Azure Data Factory, Kafka, Cloud Pu/Sub
48
Como se organiza el almacenamiento de datos en end2end
El almacenamiento se organiza en capas con diferentes niveles de limpieza, tratamiento y agrupación de los datos
49
Cuáles son las capas de almacenamiento?
Raw, Silver/Curated y Gold/Business
50
En que consiste la capa raw de almacenamiento?
Almacena los datos en crudo, sin ninguna transformación, tal y como vienen del origen de los datos
51
En que consiste la capa Silver de almacenamiento?
- Contiene los datos que han sido procesados, limpiados y estructurados para su uso. - Los datos se someten a procesos de limpieza y transformación para asegurar que sean coherentes y precisos
52
En qué consiste la capa gold de almacenamiento?
- Los datos en esta capa han sido enriquecidos con metadatos y están listos para ser utilizados en análisis y aplicaciones empresariales. - Se han integrado, transformado y agrupado para que sean coherentes y útiles. - Desde esta capa se aplican en esta capa los modelos y algoritmos avanzados para extraer información valiosa, así como el reporting
53
Herramientas Capa Raw
HOFS
54
Herramientas capa Silver
MySQL, Microsoft SQL Server, Amazon Aurora, SQLite, PostgreSQL, mongDB, Cassandra, Amazon DynamoDB
55
Herramientas de capa Gold
Snowflake, Google Big Query, Azure Synapse Analytics
56
Qué pasa entre la capa raw y la capa silver
Limpieza y calidad de datos. Asegurar que los datos son correctos, completos y consistentes
57
Qué pasa entre la capa silver y la capa gold?
Transformaciones y agrupaciones de negocio
58
Qué papel tiene Jupyter en el análisis, data science y machine learning?
Permite de forma sencilla realizar tareas de limpieza y transformación de datos, análisis exploratorios y desarrollo de prototipos de modelos
59
Qué paquete de amazon existe para end2end?
Amazon SageMaker
60
Qué paquete de Google existe para end2end?
VertexAI
61
Qué paquete de Microsoft Azure existe para end2end?
Azure Machine Learning
62
Herramientas de consumo y visualización de datos
PowerBI, Tableau, Qlik
63
Qué elementos existen en la seguridad y gobierno de datos?
Organización, Glosario, Gestión de Metadatos, Linage, Auditoría, Ciclo de vida de la información, Calidad de datos, Seguridad y Privacidad, Perfilado de datos
64
def . Seguridad y gobierno - Organización
Es el conjunto de estructuras, roles, políticas y procesos que se establecen dentro de una entidad para gestionar de manera efectiva la información y los datos.
65
def. Seguridad y gobierno - Glosario
Es el conjunto de estructuras, roles, políticas y procesos que se establecen dentro de una entidad para gestionar de manera efectiva la información y los datos.
66
def. Seguridad y gobierno - Gestión de metadatos
El proceso de crear, almacenar, gestionar y mantener metadatos, que son datos que describen y proporcionan información sobre otros datos. Ayuda a organizar y comprender la información de una organización.
67
def. Seguridad y gobierno - Lineage
Es el registro y seguimiento de los orígenes y transformaciones de los datos a lo largo de su ciclo de vida, lo que permite rastrear su procedencia, cambios y quién accedió a ellos
68
def. Seguridad y gobierno - Auditoría
Un proceso sistemático de revisión y evaluación de los datos, sus procesos de gestión y su conformidad con estándares, regulaciones y políticas establecidas, con el fin de garantizar la integridad, calidad y seguridad de los datos.
69
def. Seguridad y gobierno - Ciclo de vida de la información
El conjunto de etapas a través de las cuales pasa la información desde su creación hasta su eliminación o archivado. Esto incluye la captura, almacenamiento, procesamiento, distribución, uso y disposición de la información.
70
def. Seguridad y gobierno - Calidad de Dato
La medida en que los datos son precisos, consistentes, completos, confiables y adecuados para su uso previsto. La gestión de la calidad de datos implica actividades destinadas a mejorar y mantener la calidad de los datos en toda la organización.
71
def. Seguridad y gobierno - Seguridad y Privacidad
La protección de los datos contra accesos no autorizados, uso indebido, pérdida o daño, y el cumplimiento de regulaciones y políticas de privacidad para garantizar el manejo adecuado y ético de la información personal y confidencial.
72
def. Seguridad y gobierno - Perfilado de datos
El proceso de análisis y exploración de los datos para comprender su estructura, contenido, calidad y relaciones, con el fin de identificar patrones, tendencias, inconsistencias y problemas potenciales en los datos.
73
Para diseñar una arquitectura que pasos se deben seguir?
1. Captura de requerimientos 2. Identificar la información necesaria a ingestar en el sistema - sistemas de origen y tipología de los datos 3. Definir tipologías de almacenamiento basado en las necesidades (SQL, NoSQL o Datawarehouse) 4. Definir flujos de datos (entrada/salida y recurrencia) 5. Elaborar mapa conceptual de componentes 6. Seleccionar la tecnología adecuada 7. Diseñas la seguridad y políticas de acceso a los datos