BLOQUE 2 - TEMA 5 - Sistemas gestores bbdd NoSQL Flashcards
Las bbdd NoSql garantizan el modelo ACID ?
NO
consistencia eventual, se tarda un poco en que todos los nodos tengan la misma información
Que es el modelo BASE en las bbdd NoSql ? (T)
BASE (Basically Available Soft State) - Consistencia eventual
Basically Available: El sistema debe garantizar cierto nivel de disponibilidad-
Soft state: se prioriza la propagación de datos, delegando el control de inconsistencias a elementos externos
Eventually consistent: Este principio establece que, con el tiempo, el sistema convergerá a un estado coherente.
Que es el teorema de CAP ( o conjetura de brewer) (T)
Es un teorema que indica que es imposible para un sistema de cómputo distribuido garantizar simultáneamente: la consistencia(Consistency), disponibilidad(Availability) y la tolerancia al particionado (Partition Tolerance)
Dime las siglas de CAP del teorema de CAP (o teorema de brewer) (T)
C : consistency
A: availability
P: partition tolerance
Cual es la definicion de los estados del teorema de CAP ? (o teorema de brewer) (T)
C: consistency = Todos los nodos ven la misma información
A: availability = Toda petición tiene que recibir una respuesta
P: partition tolerance = El sistema debe seguir funcionando aunque haya fallos de comunicaciones entre nodos
Que 2 propiedades del teorema de CAP o teorema de wreber cumplen las bases de datos relacionales ? (T)
Las 2 primeras, CA
C: consistency
A: availability
La ultima, la P (partition tolerance - el sistema debe seguir funcionando aunque haya fallos de comunicaciones entre nodos), NO la cumple
Dime una base de datos NoSQL de tipo clave-valor
Cassandra
Dime una base de datos NoSQL de tipo documental
MongoDB
nota: Modelo de documento almacena datos en forma de documentos, que suelen estar en formato JSON, BSON o XML.
Que es un BSON ?
BSON (binary JSON) - es un json en formato binario
Dime una base de datos NoSQL basada en grafos
neo4j
¿Cuáles son las cuatro operaciones básicas que se pueden realizar en una base de datos?
CRUD (Create, Read, Update, Delete).
Dime algunas sentencias de mongoDB (modelo NoSQL documental) (T)
insertOne() o insertMany()
find()
updateOne(), updateMany() o replaceOne().
deleteOne() o deleteMany()
Que es lo que define la arquitectura de MongoDB (modelo NoSQL documentos) (T)
Son arquitecturas con un nodo master
Cuales son las 7 V´s del big data ?
Volumen
Variedad
Velocidad
Veracidad
Valor
Variabilidad
Visualización
Que es hadoop ? (T)
Hadoop es un marco de software de código abierto que facilita el procesamiento y almacenamiento de grandes conjuntos de datos en un entorno distribuido. Fue creado por Apache Software Foundation y es ampliamente utilizado en el mundo del big data.
Componentes Principales de Hadoop:
Hadoop Distributed File System (HDFS):
Función: Proporciona almacenamiento de datos distribuido y altamente escalable. Divide los datos en bloques grandes y los distribuye en diferentes nodos en el clúster.
Ventaja: Alta disponibilidad y resistencia a fallos, ya que los datos se replican en varios nodos.
MapReduce:
Función: Un modelo de programación para procesar grandes cantidades de datos de manera paralela en el clúster Hadoop.
Proceso: Divide el trabajo en tareas más pequeñas (Map) que se procesan en paralelo y luego combina los resultados (Reduce).
YARN (Yet Another Resource Negotiator):
Función: Administra los recursos del clúster y programa las tareas de procesamiento.
Beneficio: Permite ejecutar diferentes tipos de trabajos (no solo MapReduce) en el clúster.
Hadoop Common:
Función: Proporciona las bibliotecas y utilidades necesarias para que otros módulos de Hadoop funcionen.
Que es Hadoop Distributed File System (HDFS) ?
Función: Proporciona almacenamiento de datos distribuido y altamente escalable. Divide los datos en bloques grandes y los distribuye en diferentes nodos en el clúster.
Ventaja: Alta disponibilidad y resistencia a fallos, ya que los datos se replican en varios nodos.
Que es MapReduce ?
Función: Un modelo de programación para procesar grandes cantidades de datos de manera paralela en el clúster Hadoop.
Proceso: Divide el trabajo en tareas más pequeñas (Map) que se procesan en paralelo y luego combina los resultados (Reduce).
Que es HBase ?
Apache HBase es una base de datos NoSQL distribuida y de código abierto diseñada para manejar grandes cantidades de datos dispersos y estructurados. Es parte del ecosistema de Apache Hadoop y se ejecuta sobre Hadoop Distributed File System (HDFS).
Que es ZooKeeper ?
Apache ZooKeeper es un servicio centralizado para mantener la configuración, información de nombres, proporcionar sincronización distribuida y proporcionar servicios de grupo en aplicaciones distribuidas.
Integración:
Hadoop: ZooKeeper es una parte integral del ecosistema de Hadoop, utilizado para coordinar y gestionar nodos.
Kafka: Apache Kafka utiliza ZooKeeper para gestionar la configuración del clúster y la selección del líder.
que es RabbitMQ ?
RabbitMQ es un sistema de mensajería de código abierto que implementa el protocolo de mensajería avanzada AMQP (Advanced Message Queuing Protocol). Es utilizado para gestionar y facilitar la comunicación entre diferentes aplicaciones o componentes de un sistema distribuido
¿Cuáles de las siguientes opciones representan correctamente las 7 V’s del Big Data?
A) Volumen, Velocidad, Variedad, Veracidad, Valor, Visualización, Variabilidad
B) Volumen, Velocidad, Variedad, Veracidad, Versatilidad, Visibilidad, Virtualización
C) Volumen, Velocidad, Variedad, Veracidad, Visualización, Validación, Versatilidad
D) Volumen, Velocidad, Variedad, Veracidad, Viscocidad, Virtualización, Variabilidad
A
Volumen, Velocidad, Variedad, Veracidad, Valor, Visualización, Variabilidad
Volumen: La cantidad de datos generados y almacenados.
Velocidad: La rapidez con la que se generan y procesan los datos.
Variedad: Los diferentes tipos de datos (estructurados, no estructurados).
Veracidad: La calidad y precisión de los datos.
Valor: El beneficio que se obtiene del análisis de los datos.
Visualización: La representación gráfica de los datos para facilitar su comprensión.
Variabilidad: La inconsistencia de los datos que puede afectar la calidad del análisis.
¿Cuál es la función principal del modelo de programación MapReduce en el contexto del procesamiento de grandes volúmenes de datos?
A) Un modelo de programación para el procesamiento en tiempo real de datos de flujo continuo.
B) Un modelo de programación que divide tareas en subprocesos y las ejecuta en paralelo en un único servidor.
C) Un modelo de programación que permite la distribución y procesamiento paralelo de grandes volúmenes de datos en un clúster de computadoras.
D) Un modelo de programación utilizado exclusivamente para la gestión de bases de datos relacionales.
C
Un modelo de programación que permite la distribución y procesamiento paralelo de grandes volúmenes de datos en un clúster de computadoras
MapReduce: Es un modelo de programación y una plataforma de procesamiento de datos desarrollada por Google. Permite el procesamiento y generación de grandes conjuntos de datos de manera distribuida y paralela en un clúster de computadoras. Se basa en dos funciones principales: Map, que filtra y ordena datos, y Reduce, que realiza un resumen y agrega los resultados del paso de Map. Este modelo es fundamental en el ecosistema de Big Data, especialmente en tecnologías como Hadoop.
¿Qué es Hadoop y cuál es su función principal en el ecosistema de Big Data?
A) Una base de datos relacional utilizada para gestionar grandes volúmenes de datos estructurados.
B) Un sistema operativo especializado en la ejecución de aplicaciones distribuidas.
C) Un framework de software de código abierto que facilita el procesamiento distribuido de grandes conjuntos de datos en clústeres de computadoras.
D) Una herramienta de visualización de datos utilizada para crear gráficos y reportes interactivos.
C
Un framework de software de código abierto que facilita el procesamiento distribuido de grandes conjuntos de datos en clústeres de computadoras.
Hadoop: Es un framework de software de código abierto desarrollado por Apache. Hadoop permite el procesamiento distribuido y escalable de grandes conjuntos de datos a través de un clúster de computadoras. Utiliza el modelo de programación MapReduce y un sistema de archivos distribuido (HDFS) para almacenar y procesar datos de manera eficiente. Es una tecnología fundamental en el ecosistema de Big Data.