Parcial I Flashcards

1
Q

¿Qué es una base de datos relacional?

A

Una base de datos relacional es un tipo de base de datos que almacena y proporciona acceso a puntos de datos relacionados entre sí. Las bases de datos relacionales se basan en el modelo relacional, una forma intuitiva y directa de representar datos en tablas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

¿Qué tipo de modelos se utilizan en las bases de datos relacionales?

A

Modelo relacional: un conjunto de tablas, similares a las tablas de una hoja de cálculo, formadas por filas (registros) y columnas (campos). Los registros representan cada uno de los objetos descritos en la tabla y los campos los atributos (variables de cualquier tipo) de los objetos. En el modelo relacional de base de datos, las tablas comparten algún campo entre ellas. Estos campos compartidos van a servir para establecer relaciones entre las tablas que permitan consultas.

Modelo conceptual: son los orientados a la descripción de estructuras de datos y restricciones de integridad. Se usan fundamentalmente durante la etapa de Análisis de un problema dado y están orientados a representar los elementos que intervienen en ese problema y sus relaciones. Es el MODELO NTIDAD/RELACIÓN.

Modelo lógico: son orientados a las operaciones más que a la descripción de una realidad. Usualmente están implementados en algún Gestor de Base de Datos. El ejemplo más típico es el Modelo Relacional, que cuenta con la particularidad de contar también con buenas características conceptuales (Normalización de base de datos).
* DER Conceptual.
* DER Lógico.
* DER Físico.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

¿Cuál es el papel que desempeña la normalización en las bases de datos relacionales?

A

La Normalización consiste en poder diseñar una base de datos, o conjunto de bases de datos, que tenga un esquema específico orientado a: la integridad de datos, evitar redundancias, inconsistencia de datos, animalias de la actualización y tratamiento de dato, redundancia, respetar la integridad de los datos, etc.
Todo esto permite que la estructura de los datos sea eficiente. Al tener una estructura de datos eficiente, permite una mejor performance. Esto permite hacer Querys adecuadas y performantes.
El fin de normalizar es:
* Evitar la redundancia de los datos.
* Disminuir problemas de actualización de los datos en las tablas.
* Proteger la integridad de los datos.
* Facilitar el acceso e interpretación de los datos.
* Reducir el tiempo y complejidad de revisión de las bases de datos.
* Optimizar el espacio de almacenamiento.
* Prevenir borrados indeseados de datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

¿Es crítico el tipo de almacenamiento en este tipo de bases de datos?

A

Si, ya que afecta el rendimiento, la integridad de los datos y la escalabilidad. Un almacenamiento bien diseñado mejora la eficiencia y evita problemas de redundancia e inconsistencias.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

¿Qué tipo de operaciones permiten y registran estas bases de datos?

A

Las operaciones que se pueden realizar en una base de datos pueden ser las siguientes:
* Crear. (A)
* Eliminar. (B)
* Modificar / Incorporar datos. (M)
* Consultas de extracción de datos. (C)

CRUD (Create, Read, Update, Delete).

Inclusive todas las del algebra relacional.

Fundamentales:
* Unión
* Intersección
* Diferencia
* Producto Cartesiano

Especiales:
* Selección
* Proyección
* Reunión
* División

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

¿Qué es una base de datos para tomar decisiones?

A

Una base de datos para tomar decisiones, como un data warehouse, está diseñada para almacenar y analizar grandes volúmenes de datos con el objetivo de apoyar el proceso de toma de decisiones.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

¿Qué es OLTP?

A

OLTP es un sistema que gestiona aplicaciones orientadas a transacciones en Internet, por ejemplo, ATM.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

¿Qué es OLAP?

A

OLAP es un sistema en línea que reporta a consultas analíticas multidimensionales como informes financieros, pronósticos, etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

¿Qué diferencias existen entre ambos tipos de tecnologías?

A
  • El punto que distingue a OLTP y OLAP es que OLTP es un sistema de transacciones en línea, mientras que OLAP es un sistema de recuperación y análisis de datos en línea.
  • Los datos transaccionales en línea se convierten en la fuente de datos para OLTP. Sin embargo, la base de datos OLTPs diferente se convierte en la fuente de datos para OLAP.
  • Las operaciones principales de OLTP son insertar, actualizar y eliminar, mientras que la operación principal de OLAP es extraer datos multidimensionales para su análisis.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

¿Qué es un Data warehouse?

A

Es un repositorio estructurado, a nivel Empresa (datos globales de la empresa), de datos orientados hacia áreas de negocio. Contiene datos históricos y está preparado para facilitar la toma de decisiones. Está compuesto por una colección de Data Marts

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

¿Qué es un Data Mart?

A

Es un repositorio al igual que los Data Warehouse, difieren de ellos en el ámbito del alcance, ya que los Data Mart son un subconjunto temático de datos, orientado a un proceso o un área de negocio específica. Los Data Warehouse están compuestos por un conjunto de Data Marts.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

¿Qué es un cubo multidimensional?

A

Son estructuras de datos multidimensionales (Una tabla es unidimensional) que permiten analizar, de forma performante, bases de datos relacionales con una gran complejidad, variedad y escalabilidad de sus datos. En este tipo de estructura, cada dimensión del cubo equivale a un campo de dimensiones en la tabla, mientras que la información almacenada en cada celda del cubo corresponde a los hechos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

¿Cuál es la utilidad de tener un Data warehouse?

A

El beneficio de utilizar Data Warehouse recae en la centralización de los datos globales y el almacenamiento de datos históricos. En los Data Warehouse se almacenan los datos en su estado listo para el análisis, en un sistema apartado de la base de datos operacional, de forma que no aumenta la carga en la misma. Los Data Warehouse permiten monitorear y predecir comportamientos, realizar analisis estadisticos, generar informes, mejorar la calidad de toma de decisiones de la empresa y optimizar la capacidad de respuesta.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

¿Qué es un origen de datos?

A

Los lugares de donde las bases de datos multidimensionales extraen la información que almacenan, ya que estas no los generan por su cuenta. Se realiza mediante un proceso llamado ETL (Extract, Transform, Load)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

¿Cuáles pueden ser los distintos tipos de orígenes de datos a través de los cuales se alimenta un Data warehouse?

A

Los orígenes de datos pueden ser:
- Bases de datos relacionales y no relacionales.
- Sistemas ERP (Enterprise Resource Planning), que integran y gestionan procesos empresariales.
- Sistemas CRM (Customer Relationship Management), son plataformas que gestionan información sobre los clientes, ventas y marketing.
- Archivos (texto, excel, json, etc.)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

¿Cómo hago para conectarme a un origen de datos?

A

Esto dependerá de la herramienta utilizada para implementar nuestro DW y a su vez de los orígenes de datos que se necesiten.
* Seleccionar el tipo de origen de datos.
* Indicar información para la conexión. Por ejemplo, si seleccionamos base de datos, deberemos especificar el servidor de nuestra base de datos.
* Indicar las credenciales de acceso. Por ejemplo, de base de datos, usuario y contraseña.
* Seleccionar el origen concreto. Siguiendo el ejemplo, nuestra base de datos concreta de la cual leer la información para nuestro DW.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

¿Qué es una interfaz?

A

Es un conjunto de herramientas, protocolos o puntos de acceso que permiten la conexión entre bases de datos, aplicaciones u otros sistemas. Permiten a acceder a funciones o datos de otro software sin necesidad de tener que modificar el codigo interno.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

¿Qué es un proceso ETL?

A

Las siglas se refieren a Extraction, Transformation y Load, extracción, transformación y carga respectivamente. En la extracción se evalúan diferentes orígenes de datos. En la transformación se realizan las conversiones necesarias para garantizar homogeneidad en los
datos que serán almacenados. En la carga se realiza la inserción de los datos transformados hacia la tabla de destino para ser persistidos y luego consultados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

ETL: que es un origen de datos

A

Un origen de datos se lo considera a cualquier fuente de datos de los cuales queremos extraer la información o datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Arme una lista de los posibles orígenes de datos que puede encontrarse cuando trabaja con un DW

A

A. Archivos de texto
B. Archivos de excel
C. Archivos de access
D. Otras bases de datos tanto internas como externas y/o de diferentes tecnologías
relacionales y no relacionales
E. Archivos json
F. Web scrapping y/o WebServices
G. Sistemas CRM y/o ERP

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Como hace para tomar los datos presentes de un origen de datos y llevarlo al DW.

A

Mediante un proceso de ingesta y transformación conocido como ETL agrupando y organizando los datos relevantes para el objeto de estudio.

Fase de extracción. Consiste en captar datos de varias fuentes. Estos datos extraídos son guardados en su forma original en almacenes de datos, normalmente en sistemas cloud, para luego poder ser tratados.

Fase de transformación. Consiste en procesar los datos de forma que sean coherentes con el modelo de negocio de la organización. En la fase de extracción, los datos capturados pueden estar categorizados como datos estructurados o no estructurados, y todos ellos han de ser transformados para poder obtener información de ellos. Los datos no estructurados son mucho más complejos de transformar puesto que no poseen una estructura interna determinada. Ambos tipos de datos han de ser transformados de forma que sigan las reglas de negocio de la organización. Es decir, han de ser normalizados, clasificados y verificados según el tipo de empresa en particular.

Fase de carga. Consiste en almacenar los datos ya transformados en un sistema destino del que se puedan nutrir todas las áreas de la organización. Estos sistemas de almacenamiento reciben el nombre de DW y son el origen de datos para distintas herramientas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

¿Cuál es la diferencia entre un Sistema Transaccional (OLTP) y un sistema de Procesamiento Analítico en Línea (OLAP)?

A

La diferencia principal entre OLTP y OLAP radica en que en OLTP se usa en el día a día para el procesamiento de transacciones, mientras que en OLAP los datos quedan consolidados y resumidos a una fecha de corte determinada, sin la posibilidad (o con poca posibilidad) de
realizar modificaciones en los mismos, esto brinda una mayor agilidad al momento de consultar los datos cuando hablamos de datos históricos. En OLAP se busca el análisis de datos
para realizar una mejor planificación estratégica y toma de decisiones de la empresa

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Enuncie que diseños de bases de datos multidimensionales conoce.

A

En el diseño de bases de datos multidimensionales se utilizan generalmente las medidas, las dimensiones y los cubos, cuentan también con funciones de agregación. El lenguaje usado se
lo llama MDX que significa Multi Dimensional Expressions.
Y cuenta con los diseños:
A. MOLAP utilizado con orígenes de datos multidimensionales
B. ROLAP utilizado con orígenes de datos relacionales

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

¿Cuáles son las características principales de un diseño estrella?

A

Las características principales de un diseño estrella son:
Estructura del esquema
➢ Tabla de Hechos: es la tabla central la cual va a contener los datos que se van a querer analizar. Incluye columnas con claves foráneas que referencian tabla dimensiones.
➢ Tabla de Dimensiones: son las tablas que rodean a la tabla de hechos y describen las entidades relacionadas. Estas tablas tienen una clave primaria única.

Relaciones. Las tablas de hechos están conectadas a varias tablas de dimensiones a través de claves foráneas, formando una relación de uno a muchos, desde la tabla de hechos hacia las tablas de dimensiones. Las tablas de dimensiones o están conectadas entre si

Desnormalización. Las tablas de dimensiones están desnormalizadas para poder tener datos redundantes para mejorar el rendimiento de las consultas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

¿Cuál es la diferencia entre el modelo estrella y el copo de nieve?

A

La diferencia entre el modelo estrella y el modelo copo de nieve es que el modelo estrella posee una sola capa de dimensiones. Es decir, cuando se crea el modelo estrella, se tiene una tabla de hechos y distintas tablas de dimensiones. En cambio, en el modelo copo de nieve, se tiene una tabla de hechos, dimensiones y subdimensiones, es decir, estas tablas se normalizan.

Esto se hace fundamentalmente para permitir distintos enfoques de análisis entre dimensiones. Por ejemplo, si tengo una dimensión de región donde están divididos los países, es muy difícil hacer agrupaciones a nivel de localidades. Sin embargo, si además de la
dimensión de región tengo otra subdimensión que represente las localidades, podría realizar distintos análisis tanto a nivel de localidades como de países. Una de las principales desventajas del modelo copo de nieve es que complica el tiempo de ejecución de las consultas debido a la normalización, lo que puede complejizar los joins

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

¿Por qué piensa que es más eficiente utilizar un sistema OLAP por sobre un sistema OLTP, cuando se requiere información consolidada para la toma de decisiones?

A

Un sistema OLAP es más eficiente para la toma de decisiones porque está optimizado para consultas complejas y agregaciones de datos históricos, permitiendo un análisis rápido y multidimensional. Esto evita afectar el rendimiento de las operaciones transaccionales diarias, algo que un sistema OLTP no puede manejar tan eficientemente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

¿Cuáles son los cuatro pasos principales para la creación de un Data warehouse?

A
  1. FUENTES: recolección de datos:
    a) Externas.
    b) Bases de datos.
    c) Internas.
    d) Etc.
    En base a los requerimientos en la etapa inicial, donde se define las necesidades y objetivos, se identifican los posibles orígenes de datos.
  2. ETL: Extracción, Transformación y Carga de datos.
    Se encarga de llevar el dato del sistema origen al DW en el formato deseado, generando un dato de calidad.
  3. ALMACENAMIENTO.
    a) Data marts.
    b) Bodega de datos.
    c) Lagos de datos.
    Se puede ver como el propio DW. El contenido es información que se puede traducir a datos que llegan con el máximo nivel de detalle.
  4. AGREGACION.
  5. VISUALIZACION del DW ya creado.
    Donde se provee una capa de acceso para los sistemas que se encarguen de generar conocimiento en de algún formato o representación visual (ej, dashboards) que permite realizar toma de decisiones.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

V o F. El modelo estrella y el modelo copo de nieve poseen una tabla de hechos que se ubica en el centro.

A

VERDADERO. Ambos modelos usan una tabla de hechos que almacena los datos cuantitativos que se van a analizar. Las tablas de dimensiones rodean a la tabla de hechos y proporcionan contexto descriptivo. La diferencia se encuentra en la estructura de las tablas de dimensiones ya que el modelo copo de nieve las normaliza.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

V o F. Una base de datos multidimensional se encuentra normalizada. F

A

FALSO. Las bases de datos multidimensionales suelen encontrarse desnormalizadas para mejorar el rendimiento de las consultas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

V o F. Un cubo OLAP puede estar compuesto solamente por tres dimensiones.

A

FALSO. Un cubo OLAP puede tener más de tres dimensiones, abarcando múltiples perspectivas de análisis.

31
Q

En general los usuarios finales de un Data Warehouse serán los gerentes y ejecutivos de una organización

A

VERDADERO. Los gerentes y ejecutivos suelen ser los usuarios finales de un Data Warehouse, ya que necesitan datos consolidados para la toma de decisiones estratégicas.

32
Q

¿Qué características tiene el modelo multidimensional?

A
  • Dimensiones: representa los diferentes ejes de análisis, tales como el tiempo, producto o región, proporcionando así un contexto y categorización para los datos de hecho.
  • Hechos: contiene datos cuantitativos o medidas, como ventas o cantidades, que se analizan en relación con las dimensiones.
  • Cubo de datos: representación lógica de datos en tres o más dimensiones, donde cada celda del cubo corresponde a un valor de hecho asociado con combinaciones de dimensiones.
  • Jerarquías: son estructuras dentro de las dimensiones que permiten organizar los datos en diferentes niveles de granularidad, como día mes y año, para facilitar el análisis detallado o resumido.
  • Agregación de datos: permite resumir y acumular datos a través de diferentes niveles de las jerarquías, ayudando a realizar análisis de alto nivel y obtener estadísticas generales.
  • Facilidad de consulta y navegación: proporciona la capacidad de explorar datos rápidamente mediante operaciones como drill-down (detallado) y roll-up (resumen), y permite filtrar y segmentar datos usando slice y dice.
  • Redundancia y desnormalización: se desnormaliza los datos para mejorar el rendimiento de consulta, lo que puede aumentar la redundancia, pero simplifica y acelera las consultas analíticas.
  • Optimización para OLAP: diseñado para mejorar el rendimiento en la ejecución de consultas analíticas complejas y multidimensionales, facilitando el análisis rápido de grandes volúmenes de datos.
33
Q

Comente cuales son las operaciones básicas que se utilizan en la explotación de un modelo multidimensional.

A
  • Slice (Corte): Consiste en fijar un valor específico para una dimensión, reduciendo así el número de dimensiones visibles. Por ejemplo, si se tiene una dimensión de tiempo y se selecciona solo el año 2024, se estaría haciendo un corte que muestra únicamente
    los datos de ese año.
  • Dice (Dados): Esta operación permite seleccionar un subconjunto del cubo multidimensional eligiendo valores específicos de varias dimensiones. Por ejemplo, si las dimensiones son tiempo, producto y ubicación, se puede usar un “dice” para seleccionar las ventas de ciertos productos en determinadas ubicaciones durante un
    periodo de tiempo específico.
  • Drill-Down (Desglose): Permite profundizar en los datos, accediendo a niveles más detallados. Si se está viendo las ventas anuales, podrías hacer un desglose para observar las ventas por trimestre, mes o incluso día.
  • Drill-Up (Roll-Up): Es la operación opuesta al drill-down. Permite resumir datos en un nivel menos detallado. Por ejemplo, se podría pasar de ver datos de ventas diarias a ver un resumen de ventas mensuales o anuales, agrupando los datos en un nivel superior.
  • Pivot (Rotación): Consiste en cambiar la disposición de las dimensiones en el cubo de datos para ver la información desde diferentes ángulos. Por ejemplo, se podría cambiar de una vista de ventas por producto y región a una vista de ventas por región
    y producto.
  • Roll-Up (Agrupación): Similar a drill-up, esta operación permite agrupar y resumir datos a un nivel más alto. En lugar de analizar datos a nivel de ciudad, se podria agregarlos a nivel de país o continente.
  • Drill-Through: Facilita el acceso desde un resumen de alto nivel a los datos detallados que conforman ese resumen. Por ejemplo, desde un informe de ventas global, se podría hacer drill-through para ver las transacciones individuales que componen esas ventas.
34
Q

¿Qué es una dimensión? De un ejemplo.

A

Llamaremos dimensión a un grupo de datos categorizados que da contexto a las métricas o medidas dentro de un modelo de datos, estas dimensiones generalmente las identificamos si dan respuesta a las preguntas “¿Qué?, ¿Quién?, ¿Donde?, ¿Cuando?”.
Por ejemplo si estamos hablando de un modelo de datos de ventas, una de la dimensión clave sería el producto y sus atributos pueden ser, ID, nombre, descripción, categoría.

35
Q

¿Cómo se llaman los elementos que componen a una dimensión?

A

Se llaman atributos o niveles. Estos atributos son las características de la dimensión.

36
Q

¿Para qué se utilizan los miembros de una dimensión?

A

Se utilizan para clasificar, ordenar y filtrar los datos dentro del modelo. Cada miembro representa una instancia específica de un atributo que permite analizar los datos desde diferentes situaciones o perspectivas. Al utilizar los miembros de una dimensión es posible
desglosar y segmentar las medidas según distintos criterios.

37
Q

¿Qué utilidad tiene la dimensión de tiempo? De un ejemplo.

A

La dimensión de tiempo es súper útil para analizar cómo cambian las cosas a lo largo del tiempo. Esto es clave para comparar periodos, identificar tendencias, y predecir lo que podría pasar en el futuro. Por ejemplo, si estamos viendo la inflación de un país, podemos usar la
dimensión de tiempo para comparar cómo fueron los percentiles de enero de 2023 frente a enero de 2024, y así ver si hay algún patrón o tendencia.

38
Q

¿Qué es una jerarquía? De un ejemplo.

A

Es una estructura que organiza la información en niveles, desde los más generales hasta los más específicos. Esta estructura permite categorizar y ordenar los datos de manera que se pueda navegar fácilmente entre diferentes niveles de detalle.

Un ejemplo típico de jerarquía es la jerarquía de tiempo, que podría estar compuesta por niveles como año, trimestre, mes, semana y día. En esta jerarquía, se podría empezar analizando las ventas a nivel de año y luego profundizar para ver las ventas por trimestre o mes, hasta llegar a un análisis diario si es necesario.

39
Q

¿Qué tipos de operaciones permiten realizar las jerarquías?

A

Las jerarquías permiten realizar operaciones como drill-down y drill-up, que facilitan navegar entre diferentes niveles de detalle en los datos, desde los más generales hasta los más específicos y viceversa. También permiten hacer slice para fijar un nivel de la jerarquía y ver
datos específicos, y dice para seleccionar un subconjunto de datos en varios niveles al mismo tiempo.

40
Q

¿Qué tipo de operaciones permiten realizar los miembros de una dimensión?

A

Las operaciones comúnmente usadas son las siguientes:
a. Rebanar (Slice)
Selecciona un solo valor de una dimensión reduciendo la cantidad de datos a un subconjunto.

b. Corte (Dice)
Selecciona múltiples valores de una o mas dimensiones, creando un subconjunto que muestra la intersección de los datos.

c. Profundizar (Drill Down)
Permite explorar los datos a un nivel mas profundo, es decir que podemos entrar en el detalle mas específico que el nivel anterior.

d. Resumir (Drill Up)
Permite explorar los datos a un nivel mas amplio, es decir que podemos subir de nivel, agrupando los datos a una jerarquía superior.

e. Agregar (Roll Up)
Permite resumir los datos a un nivel superior.

f. Girar (Pivot)
Permite cambiar la perspectiva mostrando diferentes dimensiones y medidas, brindandole al usuario mayor flexibilidad en la consulta.

g. Filtrar (Filtering)
Permite aplicar condiciones para mostrar solo aquellos miembros de la dimensión que cumplan con los criterios específicos.

41
Q

¿Qué tipos de modelos de datos se suelen utilizar en una base de datos multidimensional?

A

Los modelos generalmente utilizados son:
a. Modelo de estrella (Star Scheme)
En este modelo las dimensiones son simples, es decir no se encuentran normalizados, no hay jerarquía.

b. Modelo de copo de nieve (Snowflake Scheme)
En este modelo las dimensiones se encuentran normalizadas, es decir, permiten tener tablas dependientes con jerarquías, aunque el modelo también se complejiza.

c. Modelo de galaxia (Galaxy Scheme)
En este modelo se pueden combinar múltiples tablas de hechos y dimensiones.

42
Q

¿Qué diferencias encuentra entre el modelo estrella y el copo de nieve?

A

El modelo estrella se basa en una tabla hecho central de la que parten las tablas de dimensión, en cambio, en el modelo copo de nieve (que esencialmente es una derivación de la estructura del modelo estrella) las tablas dimensión se normalizan de forma que se desprendan múltiples tablas de cada una.

43
Q

¿Cuál es el papel de la desnormalización en los modelos multidimensionales? De un ejemplo.

A

La desnormalización busca optimizar el rendimiento de las consultas y reduciendo su complejidad agregando redundancia. Por ejemplo, si tuviéramos una tabla “Producto”, en lugar de tener tablas separadas para elementos como “Categoría” o “Proveedor”, las cuales implicarían más tiempo por consulta si se necesitan obtener todos los datos de producto, podríamos ponerlos como atributos de la tabla “Producto” y obtenerlos directamente con un simple SELECT (a costo de tener que almacenar datos redundantes). Esto es mucho más importante al hablar de DataWarehouse ya que se maneja un volumen mucho más grande de datos.

44
Q

¿En qué consiste el Data Mining y cuál es su utilidad? Explique

A

Consiste en un conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos que expliquen el comportamiento de los datos que se fueron recopilando a través del tiempo. Entender el comportamiento de los datos ayuda a llegar a conclusiones y transformar los datos en información relevante, de forma que puedan utilizarse para mejoras y soluciones que ayuden a llegar a los objetivos propuestos.

45
Q

¿Por qué se llama minería al proceso de descubrir nuevo conocimiento?

A

El termino proviene de la analogía con la minería tradicional, donde se excava una gran cantidad de material buscando elementos valiosos. Para el data mining, se exploran y analizan grandes volúmenes de datos en bruto para descubrir estos elementos valiosos (patrones, tendencias, o conocimiento útil) que, al igual que en la minería tradicional, podrían no encontrarse o permanecer ocultos.

46
Q

¿Qué tipos de datos utiliza la minería de datos?

A

Entre los tipos de datos que pueden ser minados se encuentran:
-Datos almacenados en una base de datos
-Data warehouse
-Data transaccional (Bases de datos transaccionales)
-Datos de diseño de ingenieria
-Datos de secuencia
-Flujos de datos
-Datos de gráficos
-Datos espaciales
-Multimedia

47
Q

¿Qué es un patrón y cuál es su utilidad?

A

Los patrones son comportamientos repetitivos, tendencias o reglas que se encuentran analizando un conjunto de datos. Estos explican el comportamiento de los datos y proveen un conocimiento aplicable para la toma de decisiones y generación de predicciones.

48
Q

¿Cuál es la complejidad en la extracción de patrones?

A

Los conjuntos de datos, al ser tan grandes, requieren de técnicas y algoritmos capaces de procesarlos en gran medida y con mayor rapidez. A medida que aumenta el número de variables, características o dimensiones de los datos, también lo hace la complejidad que conllevan y, en consecuencia, el reconocimiento de patrones se vuelve cada vez más difícil. Por otro lado, se debe mantener la calidad de los datos. Es posible que los datos contengan errores, estén incompletos o tengan valores incoherentes y duplicados, lo que afecta a la certeza de los patrones extraídos. Además, también hay que eliminar el “ruido” de los datos, que forman valores aleatorios o irrelevantes que ensucian el análisis de patrones.

49
Q

¿Qué es el aprendizaje inductivo

A

En el contexto de la minería de datos y el big data, se utiliza para crear modelos predictivos o clasificatorios a partir de grandes volúmenes de información; además el aprendizaje inductivo
es un proceso mediante el cual, a partir de ejemplos o datos específicos, se generan reglas o modelos generales. Este tipo de aprendizaje busca encontrar patrones o relaciones en los datos y luego utiliza esos patrones para hacer predicciones sobre nuevos datos

50
Q

¿Qué es un proyecto de minería de datos?

A

Un proyecto de minería de datos es un proceso estructurado que busca extraer información valiosa y patrones ocultos en grandes volúmenes de datos para facilitar la toma de decisiones en una organización. Estos proyectos suelen implicar la recopilación, limpieza, transformación y análisis de datos, y utilizan diversas técnicas y herramientas especializadas para descubrir
patrones, relaciones y tendencias.

51
Q

¿Cuál es la relación de la minería de datos con un Data Warehouse?

A

El Data Warehouse proporciona el entorno donde los datos están estructurados y listos para el análisis, y la minería de datos utiliza esos datos para extraer información útil y relevante para las organizaciones.

52
Q

¿Cuáles son las fases de un proyecto de minería de datos? Explíquelas.

A

Las fases de un proyecto de minería de datos son:
* INVESTIGACION COMERCIAL: Tener una idea completa de los objetivos de la empresa y los distintos escenarios actuales en consonancia con los requisitos.

  • ANALISIS DE CALIDAD: A medida que se recopilan los datos es necesario verificarlos y compararlos para garantizar que no haya cuellos de botella en el proceso de integración de datos. Esto ayuda a detectar que no haya anomalías en los datos.
  • LIMPIEZA DE DATOS: Se trata de la selección, limpieza, enriquecimiento, reducción y transformación de las bases de datos. Se calcula que el 90% del tiempo, en este tipo de procesos, se gasta
    en este paso.
  • TRASFORMACION DE DATOS: Este paso consta de 5 sub-etapas. los procesos involucrados hacen que los datos estén listos en conjuntos de datos finales:
    o SUAVIZADO DE DATOS: Se elimina el ruido de los datos.
    o RESUMEN DE DATOS: Se aplica agregación de conjunto de datos
    o GENERALIZACION DE DATOS: Los datos se generalizan reemplazando cualquier dato de bajo nivel con conceptualizaciones en nivel superior.
    o NORMALIZACION DE DATOS: Los datos se definen en rangos establecidos
    o CONSTRUCCION DE ATRIBUTOS DE DATOS: Los conjuntos de datos deben estar en el conjunto de atributos antes de la minería de datos.
  • MODELADO DE DATOS: para mejorar la identificación de patrones, se implementan varios modelos matemáticos en el modelo, basados en condiciones.
53
Q

¿Qué es la minería de datos?

A

El minado de datos es un conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos que expliquen el comportamiento de estos datos. Su principal finalidad es explorar, mediante la utilización de distintas técnicas y tecnologías, bases de datos enormes de manera automática. El objetivo es encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos que se han ido recopilando con el tiempo. Estos patrones pueden encontrarse utilizando estadísticas o algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.

54
Q

¿Con qué otra disciplina se asocia?

A

La minería de datos está estrechamente vinculada al big data, aunque no se limita a los big data únicamente ya que puede aplicarse a volúmenes de datos más pequeños.

55
Q

¿Cuáles son las posibles aplicaciones predictivas?

A

Utiliza la inteligencia empresarial para predecir tendencias. Consiste en estudiar los datos históricos y actuales para hacer predicciones sobre el futuro. Utiliza técnicas matemáticas, estadísticas y de machine learning avanzadas para analizar los datos y así poder extrapolar las tendencias ocultas.

56
Q

¿Cuáles son las posibles aplicaciones asociativas?

A

Las aplicaciones asociativas nos permiten identificar correlaciones entre objetos de una base de datos. Se utiliza para determinar si diferentes combinaciones se producen con determinada probabilidad, establecen reglas de asociación en donde nos encontramos con la frase “si ocurre esto entonces es probable que también ocurra lo otro”. Por ejemplo en nuestro país, en las ventas de un supermercado, si compramos el producto fernet es muy probable o altamente probable que también compremos coca-cola.

57
Q

¿Qué herramientas de minería de datos existen?

A

Son aplicaciones que permiten al usuario descubrir patrones, tendencias y relaciones dentro de un gran volumen de datos. Hay varios tipos de herramientas específicas para cada caso que
necesitemos investigar, desde la más simple hasta la más compleja.

Podemos citar algunas de ellas:
a) Simples: Excel/Tableau
b) Avanzadas: Librerías de python
c) Específicas de dominio
d) Herramientas de big data: Apache Spark, Hadoop, Mahout Apache
e) Herramientas de minería de texto: NLTK, spaCy

58
Q

Explique las diferencias entre una variable continua y una discreta. ¿Cómo haría para volver discreta una variable continua? Cite un ejemplo.

A

Las variables continuas pueden tomar cualquier valor entre un conjunto de números reales, como por ejemplo cuando observamos la temperatura en el transcurso del día, esta va cambiando en el tiempo y por lo general la representamos con un único dígito decimal, aunque sabemos que en realidad hay infinitos valores intermedios. Cuando hablamos de variables discretas, son aquellas que pueden tomar cualquier valor entre un conjunto de valores enteros distintos, como por ejemplo cuando hablamos de cantidad de personas que fueron atendidas en un centro médico o la cantidad de ruedas que posee un vehículo.

En la práctica se podemos transformar una variable continua en discreta, siempre y cuando estemos dispuestos a afrontar una pérdida de precisión en la conversión, por ejemplo podríamos transformar la temperatura del día suponiendo que nos interesa preservar como máximo 2 decimales, para ello debemos multiplicar la temperatura por 100, y luego aplicar alguna función que trunque los datos o bien tome únicamente la parte entera de dicho valor y luego convertir el resultado a un número entero, como observamos, si la temperatura original tenía más de 2 decimales después de la coma esos serán los datos que se perderán en la conversión. Se debe prestar atención ante esta pérdida de información ya que depende del ámbito y uso que le demos a dicha información. En algunos casos de estudio más críticos no es conveniente aplicar transformaciones

59
Q

V o F. El Data warehouse me sirve para hacer minería de datos

A

Verdadero. Ya que justamente el Data Warehouse está diseñado para almacenar grandes cantidades de datos históricos que se pueden utilizar para análisis y minería de datos.

60
Q

V o F. No puedo hacer minería de datos sobre un archivo u otro tipo de formato, salvo que este en un Data Warehouse

A

Falso. La minería de datos se puede realizar sobre diferentes formatos y fuentes de datos, como archivos CSV, bases de datos relacionales, e incluso datos no estructurados como logs o documentos. Aunque un Data Warehouse proporciona una plataforma optimizada para análisis a gran escala, no es la única fuente sobre la que se puede hacer minería de datos

61
Q

V o F. El Data warehouse me permite obtener nuevo conocimiento, así como también la minería de datos

A

Verdadero. El Data Warehouse facilita la consolidación y análisis de grandes volúmenes de datos, lo que puede conducir a la obtención de nuevos conocimientos mediante consultas y análisis descriptivos. Sin embargo, la minería de datos aplica técnicas avanzadas como algoritmos predictivos, clustering o asociación, para extraer patrones más profundos y descubrir conocimiento oculto en los datos

62
Q

V o F. Para hacer minería de datos no interesan las variables a utilizar

A

Falso. En minería de datos, la selección de variables es crucial. Las variables o características correctas influyen directamente en la capacidad de los algoritmos para identificar patrones relevantes y útiles. Es común antes de hacer minería de datos realizar una etapa previa de EDA (Análisis Exploratorio de Datos) para así validar y seleccionar las variables ya que si se seleccionan variables irrelevantes o redundantes, el modelo puede ser ineficiente o producir resultados inexactos.

63
Q

V o F. Para hacer minería de datos no necesito tener muchos datos.

A

Falso. La minería de datos se al basarse en la identificación de patrones, lo que requiere un número significativo de ejemplos para ser confiables caso contrario podemos caer en sesgos bastante graves.

64
Q

V o F. Las variables a utilizar determinan el tipo de patrón de minería de datos a aplicar

A

Verdadero. Las variables juegan un papel muy importante en la elección del tipo de análisis y técnicas de minería de datos a emplear. Por ejemplo, para identificar correlaciones o clasificaciones, las variables numéricas pueden requerir un tipo de algoritmo diferente al que se usaría para variables categóricas.

65
Q

¿Qué son los requerimientos de un proyecto de data mining?

A

Definición clara del objetivo:
El primer y más importante requerimiento es entender claramente cuál es el objetivo del proyecto. Esto implica identificar qué preguntas se quieren responder o qué problemas se quieren resolver mediante la minería de datos.

Disponibilidad y calidad de los datos:
Un requisito fundamental es contar con una cantidad suficiente de datos y asegurarse de que estos sean de buena calidad. Los datos deben estar limpios, completos y relevantes para el problema que se está abordando. Según Pérez López y Santín González (2007) en Minería de datos: técnicas y herramientas, la calidad de los datos es crítica para obtener resultados precisos, por lo que se deben realizar actividades de preprocesamiento y limpieza de datos.

Infraestructura tecnológica:
Un proyecto de minería de datos requiere una infraestructura tecnológica adecuada, lo que incluye bases de datos con suficiente capacidad de almacenamiento, herramientas de procesamiento de datos y software especializado para aplicar las técnicas de análisis, como lo menciona Franco (1997) en El Data Warehouse: El Data Mining.

Selección de las técnicas de análisis:
Es necesario elegir las técnicas y algoritmos de minería de datos que mejor se adapten al tipo de datos y a los objetivos del proyecto. Como mencionan Cendejas Valdez et al. (2017), la correcta selección de modelos y metodologías es fundamental para obtener resultados útiles.

Recursos humanos especializados:
Contar con personal especializado, como científicos de datos o analistas de datos, es otro requerimiento esencial. Estos profesionales deben tener conocimientos en técnicas de minería de datos y en el manejo de las herramientas adecuadas, como lo describen las referencias mencionadas.

Evaluación y validación del modelo:
Finalmente, se requiere un proceso de evaluación continua para asegurarse de que los modelos generados cumplen con los objetivos del proyecto y proporcionan resultados precisos. Esto incluye la validación con datos de prueba y el ajuste de los modelos si es necesario.

66
Q

¿Cuáles son las características de un proyecto de Minería de Datos?

A
  • Objetivo específico y bien definido
    Un proyecto de minería de datos debe tener un objetivo claro desde el inicio, relacionado con la necesidad de resolver un problema concreto o responder a
    preguntas específicas. Hernández Orallo y Ramírez (2004) en Introducción a la minería de datos destacan que definir el objetivo es fundamental para dirigir correctamente todo el proyecto y seleccionar las técnicas adecuadas.
  • Manejo de grandes volúmenes de datos
    Uno de los elementos esenciales de la minería de datos es que se trabaja con grandes conjuntos de datos, generalmente almacenados en un Data Warehouse. Como
    mencionan Franco (1997) y Kimball y Ross (2002), un Data Warehouse es una plataforma que facilita el almacenamiento y organización de datos para su posterior
    análisis en proyectos de minería de datos.
  • Transformación y limpieza de datos
    Los datos utilizados en la minería de datos suelen requerir un proceso de limpieza, selección y transformación para asegurar su calidad antes de ser analizados. Pérez López y Santín González (2007) en Minería de datos: técnicas y herramientas hacen énfasis en la importancia de preparar los datos adecuadamente para obtener
    resultados precisos y confiables.
  • Uso de técnicas y algoritmos avanzados
    Un proyecto de minería de datos implica la aplicación de técnicas sofisticadas como clasificación, clustering, reglas de asociación y predicción. Cendejas Valdez et al. (2017) destacan que seleccionar los algoritmos adecuados es crucial para que el análisis sea efectivo.
  • Proceso iterativo
    La minería de datos no es un proceso lineal. Es común que los analistas ajusten los modelos y vuelvan a probar diferentes enfoques en múltiples ciclos para mejorar los resultados. Hernández Orallo y Ramírez (2004) mencionan que la iteración es una característica importante, ya que se aprende y se ajusta continuamente el modelo en función de los resultados obtenidos.
  • Validación y evaluación de resultados
    La evaluación y validación de los modelos generados es fundamental para asegurar que los resultados sean precisos y útiles. Esta característica es mencionada por Pérez López y Santín González (2007), quienes subrayan la importancia de medir la eficacia del modelo antes de implementarlo.
  • Orientado a la toma de decisiones
    El objetivo final de un proyecto de minería de datos es extraer conocimiento útil que pueda ser aplicado para tomar decisiones estratégicas dentro de una organización, como mencionan Franco (1997) y Cendejas Valdez et al. (2017) en sus trabajos sobre inteligencia de negocios.
67
Q

¿Cuáles son las etapas y sus responsabilidades?

A

a. Definición del Problema:
Responsabilidades:
- Comprender las necesidades del negocio.
- Definir objetivos claros y medibles para la minería de datos.
- Identificar las preguntas que el proyecto debe responder.

b. Recolección y Preparación de Datos:
Responsabilidades:
- Reunir datos de diversas fuentes.
- Limpiar y preprocesar datos (manejar valores faltantes, erróneos, etc.).
- Transformar datos para la adecuada preparación (normalización, discretización).

c. Exploración de Datos:
Responsabilidades:
- Realizar análisis exploratorio para identificar patrones y características de datos.
- Visualizar datos para facilitar la comprensión y la identificación de tendencias.

d. Modelado:
Responsabilidades:
- Seleccionar y aplicar algoritmos de minería de datos apropiados.
- Construir y entrenar modelos basados en los datos existentes.
- Ajustar los parámetros del modelo para optimizar el rendimiento.

e. Evaluación:
Responsabilidades:
- Evaluar la eficacia del modelo utilizando métricas adecuadas (precisión, recall, F1-score, etc.).
- Validar los resultados obtenidos y su aplicabilidad práctica.

f. Implementación:
Responsabilidades:
- Integrar el modelo en las operaciones del negocio o en el sistema existente.
- Comunicar los hallazgos y resultados a las partes interesadas.
- Monitorear el rendimiento del modelo en tiempo real si es necesario.

g. Mantenimiento y Actualización:
Responsabilidades:
- Reentrenar y ajustar modelos con nuevos datos a medida que se vuelven disponibles.
- Realizar un seguimiento de la efectividad y realizar mejoras continuas según sea necesario.

Estas etapas y responsabilidades aseguran que un proyecto de minería de datos se ejecute de manera estructurada y estratégica, incrementando la probabilidad de obtener resultados valiosos y accionables.

68
Q

¿Cuál es la importancia de la preparación y el armado de los datos?

A

La preparación y el armado de los datos son etapas fundamentales en cualquier proyecto de minería de datos y tienen una importancia crucial por varias razones:

a. Calidad de los Resultados
- Mejorar la precisión: Datos bien preparados ayudan a mejorar la precisión de los modelos. Si los datos son ruidosos o contienen errores, los modelos pueden generar predicciones inexactas.
- Evitar sesgos: La preparación ayuda a identificar y mitigar sesgos en los datos
que pueden influir negativamente en los resultados.

b. Eficiencia del Modelo
- Reducción de complejidad: Al seleccionar las características más relevantes y eliminar datos irrelevantes, se reduce la complejidad del modelo, lo que puede aumentar su eficiencia y disminuir el tiempo de procesamiento.
- Optimización de recursos: La preparación de datos permite un uso más eficiente de los recursos computacionales durante la etapa de modelado.

c. Facilitación del Análisis
- Estructuración adecuada: Los datos deben estar estructurados de manera que sean fáciles de analizar. Una buena organización facilita la identificación de patrones y tendencias.
- Visualización: Los datos bien preparados se pueden visualizar más fácilmente, lo que ayuda a los analistas a comprender mejor los patrones y relaciones en los datos.

d. Concordancia con los Objetivos del Proyecto
- Alineación con necesidades específicas: La preparación permite alinear los datos con los objetivos del proyecto, asegurando que la información relevante sea priorizada y utilizada en el análisis.
- Contextualización: Permite entender el contexto y la relevancia de los datos en relación con el problema que se está abordando.

e. Aumento de la Interpretabilidad
- Facilitar la comprensión: Un conjunto de datos bien preparado y organizado es más fácil de interpretar y comunicar a las partes interesadas, lo que ayuda en la toma de decisiones.
- Transparencia: Ayuda a asegurar que los resultados sean reproducibles y comprensibles, lo cual es esencial para ganar la confianza de los interesados en el proyecto.

f. Prevención de Problemas Posteriores
- Identificación temprana de errores: La preparación de datos permite detectar problemas y errores en los datos de antemano, lo que evita retrabajos y complicaciones en etapas posteriores del análisis.
- Facilitar el mantenimiento: Un buen armado de los datos hace más sencillo mantener y actualizar el modelo en el futuro, ya que se deja una estructura clara para añadir nuevos datos.

g. Impacto en el Tiempo y Costos
- Reducción de tiempos de ejecución: Al tener datos limpios y estructurados, se pueden reducir los tiempos necesarios para el análisis y la generación de modelos, lo que puede traducirse en ahorros de costos.
- Optimización de procesos: La preparación eficiente de los datos contribuye a un flujo de trabajo más ordenado y eficiente en el proyecto.

69
Q

¿Cuál es el impacto social de la minería de datos?

A

La minería de datos permite transformar grandes volúmenes de datos en información util. Empresas y gobiernos la utilizan para mejorar su eficiencia, capacidad de respuesta y generar modelos predictivos o predecir tendencias. Estas técnicas plantean, por otro lado, problemas relacionados con la privacidad, control de datos personales y el riesgo de uso indebido de la información.

70
Q

¿En qué consiste el concepto de escalabilidad en el contexto de Minería de datos distribuida?

A

La escalabilidad en la minería de datos se refiere a la capacidad de poder manejar cada vez más grandes volúmenes de datos sin perjudicar el rendimiento o la eficiencia del proceso. Se basa en que el tiempo de procesamiento y el uso de recursos crecen proporcionalmente a la cantidad de datos, lo cual es importante para la minería de datos distribuida ya que los datos son muy grandes o suelen estar geográficamente dispersos.

71
Q

¿Qué es el KDD?

A

El KDD (Knowledge Discovery in Databases), o Descubrimiento de Conocimiento en Bases de Datos, es un proceso integral destinado a extraer información útil y relevante a partir de grandes volúmenes de datos. Aunque el término “minería de datos” se ha asociado
históricamente con técnicas de inteligencia artificial (IA) y aprendizaje automático para detectar patrones en datos almacenados, el concepto de KDD abarca un proceso más amplio y estructurado.

KDD fue introducido por Piatetsky-Shapiro en 1989 para describir el proceso mediante el cual se extrae información útil y desconocida de bases de datos. Este proceso se compone de varias fases definidas (las cuales mencionaremos en la siguiente pregunta)

A diferencia de la minería de datos, que se refiere específicamente a la etapa de aplicar algoritmos para descubrir patrones, el KDD considera este paso como una parte de un proceso más amplio. El KDD busca identificar patrones válidos, nuevos, útiles y comprensibles, proporcionando así un descubrimiento significativo de conocimiento.

La diferencia en el uso de términos refleja la evolución en la comprensión de estos procesos: KDD se ha convertido en el término para el proceso macro de descubrimiento de conocimiento, mientras que minería de datos se enfoca en las técnicas específicas para la
extracción de patrones.

El KDD es ampliamente aplicado en diversas áreas como economía, salud, mercadeo y seguridad informática. Con el aumento en la capacidad de almacenamiento y la complejidad de los datos en los sistemas de información modernos, el uso de técnicas de KDD se ha vuelto crucial para interpretar grandes volúmenes de datos y extraer conocimiento útil, facilitando así la toma de decisiones en distintos sectores.

72
Q

¿Cuáles son las fases del KDD?

A

Sus fases son:
1. Selección de Datos: Identificación y recolección de datos relevantes para el análisis.

  1. Preprocesamiento de Datos: Limpieza y preparación de los datos, eliminando errores y transformándolos en un formato adecuado.
  2. Transformación de Datos: Conversión de datos en formatos útiles para la minería de datos.
  3. Minería de Datos: Aplicación de técnicas para descubrir patrones o modelos en los datos.
  4. Evaluación: Análisis y validación de los patrones encontrados para determinar su utilidad y precisión.
  5. Presentación de Resultados: Comunicación de los resultados de manera comprensible para la toma de decisiones.
73
Q

¿Qué son las tareas predictivas?

A

Las tareas predictivas se enfocan en anticipar eventos futuros utilizando datos históricos. Por ejemplo, con información de ventas pasadas, se puede predecir la demanda de productos en los próximos meses. Este tipo de tarea implica la creación de modelos que detectan patrones en los datos para hacer estimaciones precisas, como la predicción de fraudes, el riesgo crediticio o el comportamiento del mercado.

74
Q

¿Qué son las tareas descriptivas?

A

Las tareas descriptivas se centran en analizar y resumir los datos para comprender su estado actual. No buscan predecir el futuro, sino extraer información valiosa sobre lo que ya ha ocurrido. Ejemplos incluyen el análisis del perfil de los clientes, las tendencias de compra o la identificación de patrones de uso en productos y servicios. Este análisis ayuda a comprender mejor los datos y tomar decisiones informadas