Tema 2: Aproximación a Big Data Flashcards
¿Qué es un fichero?
Unidad contenedora de información en el soporte.
Conjunto organizado y nominado de informaciones estructuradas almacenadas en un soporte no volátil.
Tipos de organizaciones de los datos.
- Organización serial: se recorre de principio a fin.
- Organización secuencial: se puede acceder a secciones determinadas de la información (tiempo de acceso logarítmico).
¿Qué es la secuencialidad?
Técnica de intercalado en discos magnéticos para facilitar la lectura de datos. La lectura de datos en serie es x20 más rápida.
Los discos SSD no tienen esta capacidad y tienen una vida útil menor.
¿Qué es el almacenamiento orientado al proceso?
- Esquemas de archivos adhoc.
- Muy eficiente pero muy complejo de implementar.
- tantos procesos como funcionalidades.
- Desarrollo costoso y complejo.
- Ficheros dependientes de la aplicación.
Características de la organización serial.
- Elementos no organizados.
- Inserción óptima.
- Aprovechamiento de espacio óptimo.
- Localización ineficiente (full scan).
Características de la organización secuencial.
- Elementos ordenados.
- Mejora selección por una clave (búsqueda dicotómica: dividir todo en mitades y buscar en cada mitad. Repetir hasta encontrar lo que buscamos.
- Dificulta actualización, puede requerir mantenimiento.
Características de la organización direccionada.
- Elementos ubicados en un sitio.
- Más sitios que registros (desperdicia espacio
- Selección óptima por una clave.
- Puede requerir mantenimiento.
Características de la organización indizada.
- Elementos apuntados (uso de índices).
- Coste de localización reducida.
- Organización auxiliar.
¿Qué es una base de datos? (Definición)
Colección o depósito de datos integrados (relación entre los datos se almacena en la DB) (con el objetivo de que sea independiente de los ficheros y los procesos).
- con redundancia controlada.
- con estructura que refleja las interrelaciones y restricciones del mundo real.
- con datos independientes de aplicación o usuario.
- datos con definición y descripción únicas.
- se preserva la integridad de la BD.
Explica el enfoque OLAP.
Almacenamiento para el consumo analítico de los datos. Está orientado al procesamiento analítico, acumulación de datos. Usa procesos ETL (extracción, transformación, load).
- OLAP no usa características ACID.
¿Qué son los sistemas dorsales (back-end)?
Son los que se encargan de la extracción y la preparación de los datos.
¿Qué son los sistemas frontales (front-end)?
Son los que los usuarios usan (obtienen los datos procesados del back-end).
¿Qué es la clusterización?
Es una agrupación física que consiste en organizar la información en distintos grupos (número pequeño de grupos). Se podría considerar organización secuencial múltiple.
¿Qué es un índice?
Es un fichero auxiliar que proporciona información para realizar consultas rápidamente.
¿Qué es un fichero totalmente invertido?
Es un fichero en el que todos sus atributos están indizados (no hace falta consultar la información original, con los índices es suficiente).
La organización es por columna (se convierte de nuevo en tabla).
- Esquema de orientación de columna.