Parcial II Flashcards

1
Q

¿Qué es una tabla de hechos?

A

Una tabla de hechos es una tabla en un Data Warehouse que almacena datos numéricos o métricas que representan eventos del negocio, como ventas o ingresos. Estas tablas suelen contener datos medibles y que pueden ser analizados, como la cantidad vendida o e l monto total de una transacción, y están relacionadas con las tablas de dimensiones a través de claves foráneas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

¿Qué es una tabla de dimensión?

A

Una tabla de dimensión almacena información descriptiva que brinda contexto a los datos numéricos de la tabla de hechos. Por ejemplo, puede tener datos sobre el tiempo, los productos o las ubicaciones. Estas tablas permiten desglosar las métricas para realizar análisis más detallados, como ventas por región o por categoría de producto.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

¿Qué es un diagrama estrella?

A

Un diagrama estrella es un modelo de base de datos en un Data Warehouse donde una tabla central de hechos se conecta con varias tablas de dimensiones que la rodean. Se le llama estrella porque visualmente se asemeja a una estrella, con la tabla de hechos en el centro y las dimensiones conectadas a ella. Este diseño facilita consultas rápidas porque las dimensiones están directamente relacionadas con la tabla de hechos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

¿Qué diferencia a un diagrama copo de nieve de uno estrella?

A

La diferencia principal es que en el diagrama copo de nieve las tablas de dimensiones están normalizadas, es decir, divididas en subtablas para evitar redundancia de datos, lo que genera una estructura más compleja. En cambio, el diagrama estrella tiene las dimensiones desnormalizadas, lo que significa que toda la información relevante de cada dimensión está en una única tabla. Por eso, el diagrama copo de nieve ahorra espacio, pero puede ser más lento para consultas, mientras que el diagrama estrella es más simple y rápido para acceder a los datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

¿Cómo se utiliza un árbol de decisión para clasificación?

A

Un árbol de decisión clasifica dividiendo los datos en subconjuntos más pequeños basados en características relevantes. Cada nodo interno representa una condición sobre un atributo, y cada rama corresponde a un resultado posible de esa condición. El proceso comienza en la raíz y continúa hacia abajo hasta llegar a una hoja, que contiene la clase asignada. Por ejemplo, para clasificar un cliente como “aprobado” o “no aprobado” para un préstamo, el árbol puede usar criterios como ingresos, edad y antecedentes financieros. El objetivo es seguir las ramas correctas hasta llegar a una hoja que indique la categoría final del dato.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

¿Qué es el sistema de aprendizaje de reglas por cobertura?

A

El aprendizaje de reglas por cobertura es una técnica en la que se generan reglas de clasificación para cubrir las instancias de un conjunto de datos. Se crea una regla que cubre tantas instancias positivas como sea posible sin incluir negativas. Después, las instancias cubiertas se eliminan del conjunto, y se repite el proceso hasta cubrir todas las instancias. Es útil para modelos interpretables donde cada regla representa una condición clara para clasificar instancias.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

¿Cuáles son las técnicas para podar un árbol?

A
  • Poda Previa (Pre-Pruning)
    Consiste en detener el crecimiento del árbol antes de que alcance su máxima profundidad, estableciendo ciertos criterios para limitar el tamaño del árbol durante su construcción. Algunas técnicas de poda previa incluyen:
  • Profundidad máxima: Limitar la profundidad máxima del árbol.
  • Mínimo número de muestras por nodo: Definir un número mínimo de datos que debe tener un nodo para poder dividirse.
  • Mínimo número de muestras para realizar una división: Controla si un nodo puede dividirse basándose en el número de muestras que contiene.
  • Ganancia mínima de información: No permitir una división si la ganancia de información es inferior a un umbral.
  • Poda Posterior (Post-Pruning) Se realiza después de que el árbol se ha construido completamente. El proceso evalúa y elimina ramas que no contribuyen significativamente a mejorar el rendimiento del árbol. Algunas técnicas incluyen:
  • Cost-Complexity Pruning: También conocido como poda basada en la complejidad del coste, donde se mide la relación entre el tamaño del árbol y el error de predicción. Se busca reducir el error mientras se minimiza la
    complejidad del árbol.
  • Poda de reducción de error: Las ramas se eliminan si eliminarlas reduce el error del conjunto de validación, manteniendo solo aquellas que mejoran el rendimiento
  • Poda de Costo Complejo (Cost-Complexity Pruning)
    Esta técnica agrega un término de penalización basado en el tamaño del árbol. La función de coste que se minimiza incluye un término de error y un término que penaliza la complejidad. Esto implica encontrar un equilibrio entre la precisión y la simplicidad del modelo.
  • Poda basada en validación cruzada
    Usa un conjunto de validación o una técnica de validación cruzada para evaluar el rendimiento del árbol en diferentes niveles de complejidad. El árbol se poda hasta encontrar la estructura que mejor generaliza en los datos de validación.
  • Poda de mínima complejidad (Minimal Cost-Complexity Pruning)
    Una versión optimizada de la poda de costo-complejidad, esta técnica utiliza la validación cruzada para podar iterativamente ramas que no mejoran la precisión del modelo, comenzando por las menos importantes.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

¿Cuál es la utilidad de un árbol de decisión?

A

Un árbol de decisión es útil en machine learning y en análisis de datos porque proporciona una manera clara y visual de tomar decisiones basadas en datos. Organiza las decisiones y sus posibles consecuencias en una estructura jerárquica, donde cada nodo representa una pregunta o criterio, y las ramas representan los posibles resultados. Esta herramienta permite clasificar, predecir, y resolver problemas tanto de clasificación como de regresión, ayudando a identificar patrones en los datos de manera interpretable. Además, es fácil de entender y comunicar, lo que lo hace valioso para explicar modelos a personas no técnicas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

¿Como se usa un árbol para clasificar datos?

A

Los árboles clasifican datos mediante su estructura jerárquica, donde cada nodo representa una característica y las ramas los posibles valores que se desprenden de la misma. Para clasificar un nuevo dato, se seguiría el camino que corresponde a sus características hasta llegar a una hoja que indique su clase.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

¿En qué consiste la poda?

A

La poda consiste en reducir el tamaño del árbol eliminando ramas que no aportan valor significativo al modelo o que podrían causar sobreajuste. El objetivo es mejorar la capacidad de generalización del árbol, asegurando que se enfoque en los patrones relevantes sin adaptarse demasiado a los datos de entrenamiento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

¿En qué consiste la restructuración?

A

La reestructuración en árboles de decisión implica modificar la estructura del árbol para mejorar su rendimiento o interpretabilidad sin perder precisión. Esto puede incluir reorganizar nodos o cambiar el orden de los criterios de división. La reestructuración también puede ser útil para simplificar el modelo, haciéndolo más eficiente o comprensible. Por ejemplo, si una rama se encuentra redundante, podría ser reubicada o fusionada con otra que tenga un criterio similar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

¿Cómo se estiman las probabilidades?

A

La estimación de probabilidades se puede realizar de varias maneras, la elección del método depende del tipo de datos y del objetivo del análisis, las más comunes son:
A. Frecuencia Relativa: La forma más sencilla de estimar la probabilidad de una clase es mediante la frecuencia relativa. Se cuenta el número de instancias en cada clase y se divide por el número total de instancias. Por ejemplo, si hay 30 instancias de una clase y 70 de otra en un conjunto de 100, la probabilidad para la primera clase es 30/100 = 0.3.

B. Cálculo en Nodos: En un árbol de decisión, cada nodo representa una decisión basada en una característica. Las probabilidades para cada clase se pueden calcular en cada nodo terminal (hoja) contando las instancias de cada clase en ese nodo y dividiéndolas por el total de instancias en la hoja.

C. Métodos de Enriquecimiento: En algunos casos, se pueden utilizar métodos estadísticos para ajustar las probabilidades, como el suavizado de Laplace, que evita que una clase con cero instancias tenga una probabilidad de cero.

D. Algoritmos de Aprendizaje Automático: Algoritmos como el Naive Bayes y los modelos de regresión logística pueden integrarse con árboles de decisión para calcular probabilidades más precisas a partir de características específicas.

E. Validación Cruzada: Se puede utilizar técnicas de validación cruzada para estimar la probabilidad de una clase en función de un conjunto de datos de entrenamiento y comprobar la precisión del modelo.

F. Clasificación de Probabilidades en Modelos: Algunos algoritmos de árboles de decisión, como los árboles de decisión de clasificación (CART, por sus siglas en inglés), pueden devolver probabilidades como parte de su salida, basadas en las proporciones de las clases en los nodos finales.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

¿Qué abarca la minería de datos espaciales?

A

Se centra en bases de datos que contienen datos ubicados en un espacio, por ejemplo, datos geográficos o arquitectónicos. Usa técnicas de clasificación, reglas de asociación y agrupamiento de datos basados en relaciones espaciales (distancias, orientación, y proximidad).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

¿Qué abarca la minería de datos temporales?

A

Se enfoca en datos que evolucionan con el tiempo, como series cronológicas. Identifica patrones en series de tiempo para predecir valores futuros, utilizando técnicas como el análisis de tendencias a largo plazo y movimientos estacionales.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

¿Qué abarca la minería de datos secuenciales?

A

Detecta patrones en secuencias de eventos sin que el momento específico importe. Ejemplo: comportamiento de compra de clientes donde un producto lleva a otro en un intervalo de tiempo. Técnicas comunes incluyen clasificación, agrupamiento y reglas de asociación aplicadas a datos secuenciales.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

¿Qué abarca la minería de datos multimedia?

A

Procesa datos en formato de audio, video, texto e imágenes. Prepara los datos multimedia para análisis aplicando técnicas como reconocimiento de patrones y de voz, categorización de texto y reconocimiento de caracteres.

17
Q

¿Qué tienen en común estas 4 disciplinas?

A

Las cuatro disciplinas buscan descubrir patrones en datos especializados, pero requieren técnicas de minería de datos adaptadas a sus características únicas (espacio, tiempo, secuencia o formato multimedia).

18
Q

¿Qué entiende por ML y como lo relaciona con estas 4 disciplinas?

A

El ML (Machine Learning) es un conjunto de algoritmos que permite a las máquinas aprender patrones y hacer predicciones. En estas disciplinas, ML ayuda a clasificar y agrupar datos complejos (espaciales, temporales, secuenciales y multimedia) aplicando técnicas adaptadas.

19
Q

¿Qué entiende por IA y como lo relaciona con estas 4 disciplinas?

A

La IA (Inteligencia Artificial) implica la creación de sistemas capaces de simular inteligencia humana. En estas disciplinas, IA procesa grandes cantidades de datos para extraer conocimiento y generar modelos predictivos aplicables en análisis espacial, temporal, secuencial y multimedia.

20
Q

¿cuál de estas 4 disciplinas cree que es más relevante?

A

La relevancia depende del contexto, aunque la minería de datos secuenciales es frecuentemente importante en negocios para entender el comportamiento del cliente y optimizar procesos

21
Q

Enumere y detalle las técnicas utilizadas en las 4 disciplinas.

A

Datos espaciales: Clasificación, reglas de asociación, agrupamiento (algoritmos PAM, CLARA, CLARANS).
Datos temporales: Análisis de tendencias, predicción de series de tiempo, identificación de movimientos estacionales.
Datos secuenciales: Clasificación, agrupamiento de patrones, reglas de asociación secuenciales.
Datos multimedia: Reconocimiento de patrones, categorización, OCR para imágenes.

22
Q

¿Qué diferencia hay entre Tendencias Espaciales y Datos Espaciales?

A

Los datos espaciales se refieren a información geográfica estática, mientras que las tendencias espaciales indican cambios en estos datos a lo largo del tiempo (p.ej., niveles de empleo en función de la distancia a un centro industrial).

23
Q

De un ejemplo en el que pueda aplicarse una regla de asociación.

A

En el contexto de un proyecto de minería de datos, un ejemplo típico de aplicación de reglas de asociación sería en un supermercado para identificar patrones de compra de productos.
Utilizando técnicas de minería de datos, podemos descubrir que “si un cliente compra pan, existe una alta probabilidad de que también compre leche”. Esto se puede representar con una regla de asociación simple:
Si un cliente compra pan (X), entonces también comprará leche (Y).
La minería de datos explora estas relaciones para optimizar el inventario y aumentar las ventas mediante la creación de ofertas cruzadas.

24
Q

Explique un ejemplo utilizando “MBA” (Market Basket Analisys).

A

El Análisis de la Cesta de Mercado (Market Basket Analysis - MBA) es una técnica utilizada para descubrir asociaciones entre productos. Por ejemplo, en una tienda de alimentos, se podría usar MBA para identificar qué productos tienden a comprarse juntos. Por ejemplo, un análisis puede revelar que “si un cliente compra cerveza, también tiende a comprar papas fritas y salsa de queso”. La regla de asociación derivada podría ser:
Si un cliente compra cerveza (X), entonces también comprará papas fritas y salsa de queso (Y).
Este tipo de análisis ayuda a las tiendas a colocar productos relacionados juntos, lo que incrementa las ventas y mejora la experiencia de compra.

25
Q

¿Qué reglas de asociación puede mencionar?

A

Confianza y Soporte.
La confianza mide cuantas veces se cumple una regla, es decir, que tan certera es la regla para evaluar un conjunto de datos global. El soporte indica la frecuencia con la que el conjunto de elementos elegidos para la regla aparece en el conjunto de datos que se está utilizando.

26
Q

¿Qué reglas de dependencia conoce?

A

Dependencia funcional: establece la relación entre dos conjuntos de atributos, donde uno determina al otro, por ejemplo, si un numero de producto determina su nombre entonces existe una dependencia funcional entre número de producto y nombre.
Dependencia condicional: La relación entre dos variables está determinada por una tercera, por ejemplo, si la probabilidad de que una persona compre un seguro depende de su edad, pero al mismo tiempo esta relación varía según sus ingresos.
Dependencia transitiva: un atributo depende de otro a través de un tercero, por lo que se establece una relación indirecta entre datos.

27
Q

Relación entre interés y correlación.

A

La correlación es una medida estadística que indica la extensión en la que dos variables están relacionadas entre sí. Se mide comúnmente usando el coeficiente de correlación de Pearson,este varía entre -1 y 1. El valor 1 indica una correlación positiva exacta, -1 indica una correlación negativa exacta, cero indica que no hay correlación.
El interés en el análisis de datos se refiere a la relevancia o utilidad de encontrar relaciones entre variables. Se busca identificar patrones o asociaciones que pueden ser importantes para la toma de decisiones. La asociación se refiere a una relación observada entre variables. Es común que se busquen asociaciones significativas para entender mejor el comportamiento de las variables y para hacer predicciones. La correlación puede ser una forma de medir esa asociación, pero no siempre implica causalidad, esto quiere decir que permite identificar asociaciones de interés, pero no todas las asociaciones encontradas son necesariamente correlaciones significativas.

28
Q

¿Qué es una regla de asociación multinivel?

A

Es un tipo de regla en minería de datos que se aplica a conjuntos de datos que tienen múltiples niveles o jerarquías en sus atributos. Estas reglas están diseñadas para capturar relaciones complejas entre elementos que pueden pertenecer a diferentes niveles de una estructura jerárquica.
Alguna de sus características son:
a. Jerarquía: Los datos están organizados en diferentes niveles, como categorías, subcategorías y elementos.
b. Reglas de asociación: Se expresan en la forma “Si X, entonces Z”, donde X y Z pueden pertenecer a diferentes niveles de la jerarquía.
c. Soporte y confianza: Las reglas multinivel se pueden evaluar utilizando medidas de soporte y confianza.
Las reglas multinivel son útiles porque permiten entender relaciones que pueden no ser evidentes cuando se analizan elementos en un mismo nivel, dando un mejor panorama de las interrelaciones y brindándonos un análisis más completo.

29
Q

¿Qué es una regla de asociación secuencial?

A

Una regla de asociación secuencial es similar a las reglas de asociación estándar, pero con un enfoque en el orden en que ocurren los eventos o transacciones. Se trata de identificar patrones donde un conjunto de elementos o acciones preceden a otro conjunto dentro de un intervalo de tiempo determinado. Por ejemplo, en un análisis de comportamiento de compra, podríamos encontrar que los clientes que compran un producto específico suelen comprar
otro dentro de una semana. Es como descubrir qué secuencias de eventos o compras tienden a suceder una tras otra.

30
Q

¿Qué tipos de datos pueden utilizarse en estas reglas?

A

Los tipos de datos que pueden usarse en estas reglas incluyen principalmente datos transaccionales o secuenciales. Esto puede abarcar compras de productos en un supermercado, interacciones en una página web, registros de clics en una aplicación, o cualquier otro conjunto de datos donde el orden o la cronología sea relevante. Esos datos suelen ser categóricos (por ejemplo, productos comprados) y temporales (cuando ocurre cada