BLOQUE 2 - TEMA 5 - Sistemas gestores bbdd NoSQL Flashcards

1
Q

Las bbdd NoSql garantizan el modelo ACID ?

A

NO

consistencia eventual, se tarda un poco en que todos los nodos tengan la misma información

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Que es el modelo BASE en las bbdd NoSql ?

A

BASE (Basically Available Soft State) - Consistencia eventual

Basically Available: El sistema debe garantizar cierto nivel de disponibilidad-

Soft state: se prioriza la propagación de datos, delegando el control de inconsistencias a elementos externos

Eventually consistent: Este principio establece que, con el tiempo, el sistema convergerá a un estado coherente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Que es el teorema de CAP ( o conjetura de wreber)

A

Es un teorema que indica que es imposible para un sistema de cómputo distribuido garantizar simultáneamente: la consistencia(Consistency), disponibilidad(Availability) y la tolerancia al particionado (Partition Tolerance)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Dime las siglas de CAP del teorema de CAP (o teorema de wreber)

A

C : consistency
A: availability
P: partition tolerance

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Cual es la definicion de los estados del teorema de CAP ? (o teorema de wreber)

A

C: consistency = Todos los nodos ven la misma información

A: availability = Toda petición tiene que recibir una respuesta

P: partition tolerance = El sistema debe seguir funcionando aunque haya fallos de comunicaciones entre nodos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Que 2 propiedades del teorema de CAP o teorema de wreber cumplen las bases de datos relacionales ?

A

Las 2 primeras, CA

C: consistency
A: availability

La ultima, la P (partition tolerance - el sistema debe seguir funcionando aunque haya fallos de comunicaciones entre nodos), NO la cumple

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Dime una base de datos NoSQL de tipo clave-valor

A

Cassandra

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Dime una base de datos NoSQL de tipo documental

A

MongoDB

nota: Modelo de documento almacena datos en forma de documentos, que suelen estar en formato JSON, BSON o XML.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Que es un BSON ?

A

BSON (binary JSON) - es un json en formato binario

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Dime una base de datos NoSQL basada en grafos

A

neo4j

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

¿Cuáles son las cuatro operaciones básicas que se pueden realizar en una base de datos?

A

CRUD (Create, Read, Update, Delete).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Dime algunas sentencias de mongoDB (modelo NoSQL documental)

A

insertOne() o insertMany()
find()
updateOne(), updateMany() o replaceOne().
deleteOne() o deleteMany()

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Que es lo que define la arquitectura de MongoDB (modelo NoSQL documentos)

A

Son arquitecturas con un nodo master

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Cuales son las 7 V´s del big data ?

A

Volumen
Variedad
Velocidad
Veracidad
Valor
Variabilidad
Visualización

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Que es hadoop ?

A

Hadoop es un marco de software de código abierto que facilita el procesamiento y almacenamiento de grandes conjuntos de datos en un entorno distribuido. Fue creado por Apache Software Foundation y es ampliamente utilizado en el mundo del big data.

Componentes Principales de Hadoop:
Hadoop Distributed File System (HDFS):

Función: Proporciona almacenamiento de datos distribuido y altamente escalable. Divide los datos en bloques grandes y los distribuye en diferentes nodos en el clúster.

Ventaja: Alta disponibilidad y resistencia a fallos, ya que los datos se replican en varios nodos.

MapReduce:

Función: Un modelo de programación para procesar grandes cantidades de datos de manera paralela en el clúster Hadoop.

Proceso: Divide el trabajo en tareas más pequeñas (Map) que se procesan en paralelo y luego combina los resultados (Reduce).

YARN (Yet Another Resource Negotiator):

Función: Administra los recursos del clúster y programa las tareas de procesamiento.

Beneficio: Permite ejecutar diferentes tipos de trabajos (no solo MapReduce) en el clúster.

Hadoop Common:

Función: Proporciona las bibliotecas y utilidades necesarias para que otros módulos de Hadoop funcionen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Que es Hadoop Distributed File System (HDFS) ?

A

Función: Proporciona almacenamiento de datos distribuido y altamente escalable. Divide los datos en bloques grandes y los distribuye en diferentes nodos en el clúster.

Ventaja: Alta disponibilidad y resistencia a fallos, ya que los datos se replican en varios nodos.

17
Q

Que es MapReduce ?

A

Función: Un modelo de programación para procesar grandes cantidades de datos de manera paralela en el clúster Hadoop.

Proceso: Divide el trabajo en tareas más pequeñas (Map) que se procesan en paralelo y luego combina los resultados (Reduce).

18
Q

Que es HBase ?

A

Apache HBase es una base de datos NoSQL distribuida y de código abierto diseñada para manejar grandes cantidades de datos dispersos y estructurados. Es parte del ecosistema de Apache Hadoop y se ejecuta sobre Hadoop Distributed File System (HDFS).

19
Q

Que es ZooKeeper ?

A

Apache ZooKeeper es un servicio centralizado para mantener la configuración, información de nombres, proporcionar sincronización distribuida y proporcionar servicios de grupo en aplicaciones distribuidas.

Integración:
Hadoop: ZooKeeper es una parte integral del ecosistema de Hadoop, utilizado para coordinar y gestionar nodos.

Kafka: Apache Kafka utiliza ZooKeeper para gestionar la configuración del clúster y la selección del líder.

20
Q

que es RabbitMQ ?

A

RabbitMQ es un sistema de mensajería de código abierto que implementa el protocolo de mensajería avanzada AMQP (Advanced Message Queuing Protocol). Es utilizado para gestionar y facilitar la comunicación entre diferentes aplicaciones o componentes de un sistema distribuido

21
Q

¿Cuáles de las siguientes opciones representan correctamente las 7 V’s del Big Data?

A) Volumen, Velocidad, Variedad, Veracidad, Valor, Visualización, Variabilidad

B) Volumen, Velocidad, Variedad, Veracidad, Versatilidad, Visibilidad, Virtualización

C) Volumen, Velocidad, Variedad, Veracidad, Visualización, Validación, Versatilidad

D) Volumen, Velocidad, Variedad, Veracidad, Viscocidad, Virtualización, Variabilidad

A

A

Volumen, Velocidad, Variedad, Veracidad, Valor, Visualización, Variabilidad

Volumen: La cantidad de datos generados y almacenados.

Velocidad: La rapidez con la que se generan y procesan los datos.

Variedad: Los diferentes tipos de datos (estructurados, no estructurados).

Veracidad: La calidad y precisión de los datos.

Valor: El beneficio que se obtiene del análisis de los datos.

Visualización: La representación gráfica de los datos para facilitar su comprensión.

Variabilidad: La inconsistencia de los datos que puede afectar la calidad del análisis.

22
Q

¿Cuál es la función principal del modelo de programación MapReduce en el contexto del procesamiento de grandes volúmenes de datos?

A) Un modelo de programación para el procesamiento en tiempo real de datos de flujo continuo.

B) Un modelo de programación que divide tareas en subprocesos y las ejecuta en paralelo en un único servidor.

C) Un modelo de programación que permite la distribución y procesamiento paralelo de grandes volúmenes de datos en un clúster de computadoras.

D) Un modelo de programación utilizado exclusivamente para la gestión de bases de datos relacionales.

A

C

Un modelo de programación que permite la distribución y procesamiento paralelo de grandes volúmenes de datos en un clúster de computadoras

MapReduce: Es un modelo de programación y una plataforma de procesamiento de datos desarrollada por Google. Permite el procesamiento y generación de grandes conjuntos de datos de manera distribuida y paralela en un clúster de computadoras. Se basa en dos funciones principales: Map, que filtra y ordena datos, y Reduce, que realiza un resumen y agrega los resultados del paso de Map. Este modelo es fundamental en el ecosistema de Big Data, especialmente en tecnologías como Hadoop.

23
Q

¿Qué es Hadoop y cuál es su función principal en el ecosistema de Big Data?

A) Una base de datos relacional utilizada para gestionar grandes volúmenes de datos estructurados.

B) Un sistema operativo especializado en la ejecución de aplicaciones distribuidas.

C) Un framework de software de código abierto que facilita el procesamiento distribuido de grandes conjuntos de datos en clústeres de computadoras.

D) Una herramienta de visualización de datos utilizada para crear gráficos y reportes interactivos.

A

C

Un framework de software de código abierto que facilita el procesamiento distribuido de grandes conjuntos de datos en clústeres de computadoras.

Hadoop: Es un framework de software de código abierto desarrollado por Apache. Hadoop permite el procesamiento distribuido y escalable de grandes conjuntos de datos a través de un clúster de computadoras. Utiliza el modelo de programación MapReduce y un sistema de archivos distribuido (HDFS) para almacenar y procesar datos de manera eficiente. Es una tecnología fundamental en el ecosistema de Big Data.

24
Q

¿Cuál de las siguientes es una base de datos NoSQL de tipo clave-valor?

A) MongoDB

B) Cassandra

C) CouchDB

D) Neo4j

A

B

Cassandra

Cassandra: Aunque es conocida principalmente como una base de datos de tipo columna, también puede ser utilizada como una base de datos clave-valor. Es altamente escalable y se usa en aplicaciones que requieren alta disponibilidad y sin puntos únicos de fallo.

CouchDB: Es una base de datos NoSQL, pero se clasifica principalmente como una base de datos orientada a documentos.

25
Q

¿Cuál es la función principal del Hadoop Distributed File System (HDFS) en el ecosistema de Big Data?

A) Un sistema de archivos distribuido para almacenar y gestionar datos no estructurados en una sola máquina.

B) Un sistema de archivos de red que permite la compartición de archivos entre diferentes sistemas operativos.

C) Un sistema de archivos distribuido diseñado para almacenar y gestionar grandes volúmenes de datos en un clúster de computadoras.

D) Un sistema de archivos en tiempo real para el procesamiento inmediato de datos.

A

C

Un sistema de archivos distribuido diseñado para almacenar y gestionar grandes volúmenes de datos en un clúster de computadoras.

Hadoop Distributed File System (HDFS): Es un sistema de archivos distribuido desarrollado por Apache que está diseñado para almacenar y gestionar grandes volúmenes de datos en un entorno de clúster. HDFS permite el almacenamiento escalable y fiable, dividiendo los datos en bloques grandes distribuidos entre nodos en el clúster, lo cual facilita el procesamiento paralelo eficiente.

26
Q

¿Cuál es la función principal de Apache ZooKeeper en el ecosistema de Big Data?

A) Un framework para el procesamiento en tiempo real de grandes volúmenes de datos.

B) Un sistema de archivos distribuido para almacenar datos no estructurados.

C) Un servicio centralizado para la gestión de la configuración, el nombramiento, la sincronización y la gestión de grupos en un clúster distribuido.

D) Un motor de búsqueda distribuido para indexar y consultar grandes conjuntos de datos.

A

C

Un servicio centralizado para la gestión de la configuración, el nombramiento, la sincronización y la gestión de grupos en un clúster distribuido.

Apache ZooKeeper: Es una herramienta de software que proporciona servicios centralizados para la gestión de la configuración, el nombramiento, la sincronización y la gestión de grupos en aplicaciones distribuidas. ZooKeeper es fundamental para mantener la coherencia y la coordinación en clústeres de gran escala, y es utilizado frecuentemente en conjunto con otros sistemas de Big Data como Hadoop y Kafka.