Tema 2: Aproximación a Big Data Flashcards
¿Qué es un fichero?
Unidad contenedora de información en el soporte.
Conjunto organizado y nominado de informaciones estructuradas almacenadas en un soporte no volátil.
Tipos de organizaciones de los datos.
- Organización serial: se recorre de principio a fin.
- Organización secuencial: se puede acceder a secciones determinadas de la información (tiempo de acceso logarítmico).
¿Qué es la secuencialidad?
Técnica de intercalado en discos magnéticos para facilitar la lectura de datos. La lectura de datos en serie es x20 más rápida.
Los discos SSD no tienen esta capacidad y tienen una vida útil menor.
¿Qué es el almacenamiento orientado al proceso?
- Esquemas de archivos adhoc.
- Muy eficiente pero muy complejo de implementar.
- tantos procesos como funcionalidades.
- Desarrollo costoso y complejo.
- Ficheros dependientes de la aplicación.
Características de la organización serial.
- Elementos no organizados.
- Inserción óptima.
- Aprovechamiento de espacio óptimo.
- Localización ineficiente (full scan).
Características de la organización secuencial.
- Elementos ordenados.
- Mejora selección por una clave (búsqueda dicotómica: dividir todo en mitades y buscar en cada mitad. Repetir hasta encontrar lo que buscamos.
- Dificulta actualización, puede requerir mantenimiento.
Características de la organización direccionada.
- Elementos ubicados en un sitio.
- Más sitios que registros (desperdicia espacio
- Selección óptima por una clave.
- Puede requerir mantenimiento.
Características de la organización indizada.
- Elementos apuntados (uso de índices).
- Coste de localización reducida.
- Organización auxiliar.
¿Qué es una base de datos? (Definición)
Colección o depósito de datos integrados (relación entre los datos se almacena en la DB) (con el objetivo de que sea independiente de los ficheros y los procesos).
- con redundancia controlada.
- con estructura que refleja las interrelaciones y restricciones del mundo real.
- con datos independientes de aplicación o usuario.
- datos con definición y descripción únicas.
- se preserva la integridad de la BD.
Explica el enfoque OLAP.
Almacenamiento para el consumo analítico de los datos. Está orientado al procesamiento analítico, acumulación de datos. Usa procesos ETL (extracción, transformación, load).
- OLAP no usa características ACID.
¿Qué son los sistemas dorsales (back-end)?
Son los que se encargan de la extracción y la preparación de los datos.
¿Qué son los sistemas frontales (front-end)?
Son los que los usuarios usan (obtienen los datos procesados del back-end).
¿Qué es la clusterización?
Es una agrupación física que consiste en organizar la información en distintos grupos (número pequeño de grupos). Se podría considerar organización secuencial múltiple.
¿Qué es un índice?
Es un fichero auxiliar que proporciona información para realizar consultas rápidamente.
¿Qué es un fichero totalmente invertido?
Es un fichero en el que todos sus atributos están indizados (no hace falta consultar la información original, con los índices es suficiente).
La organización es por columna (se convierte de nuevo en tabla).
- Esquema de orientación de columna.
¿Qué es una columna?
Puede tener varios atributos (distinto concepto de columna).
Tipos de organización de datos en OLAP.
- Organización serial
- Organización indizada
¿Qué es la topología en estrella?
Consiste en tener una tabla central relacionada con varias tablas satélites.
- Es un diseño simple, tiene baja redundancia y bajo coste de mantenimiento.
¿Qué es la topología copo de nieve?
Una o más tablas centrales relacionadas con tablas satélites que a su vez son desarrolladas en otras tablas satélites.
- Mucha agilidad y simplicidad de consulta.
Enfoque MOLAP.
- Cubos multidimensionales con información precocinada.
- Compacto y ágil.
- Posibilidades limitadas (rígidez), el diseño te constriñe.
Tipos de escalabilidad.
- Escalabilidad vertical: hardware más potente.
- Escalabilidad horizontal: más cantidad de hardware trabajando en paralelo.
Tipos de arquitecturas distribuidas.
- Master-slave (centralizado)
- Peer to Peer (descentralizado) (ej. arquitectura de cassandra)
¿Qué es y qué implica la tolerancia a fallos?
La tolerancia a fallos permite que si se cae un nodo el sistema siga trabajando.
Implica que se prescinde de la consistencia (se duplica la información para no perderla).
¿En qué consiste el sharding?
Consiste en fragmentar la información en paquetes pequeños de datos para distribuirlos en redes de máquinas.