Parcial II Flashcards
¿Qué es una tabla de hechos?
Una tabla de hechos es una tabla en un Data Warehouse que almacena datos numéricos o métricas que representan eventos del negocio, como ventas o ingresos. Estas tablas suelen contener datos medibles y que pueden ser analizados, como la cantidad vendida o e l monto total de una transacción, y están relacionadas con las tablas de dimensiones a través de claves foráneas.
¿Qué es una tabla de dimensión?
Una tabla de dimensión almacena información descriptiva que brinda contexto a los datos numéricos de la tabla de hechos. Por ejemplo, puede tener datos sobre el tiempo, los productos o las ubicaciones. Estas tablas permiten desglosar las métricas para realizar análisis más detallados, como ventas por región o por categoría de producto.
¿Qué es un diagrama estrella?
Un diagrama estrella es un modelo de base de datos en un Data Warehouse donde una tabla central de hechos se conecta con varias tablas de dimensiones que la rodean. Se le llama estrella porque visualmente se asemeja a una estrella, con la tabla de hechos en el centro y las dimensiones conectadas a ella. Este diseño facilita consultas rápidas porque las dimensiones están directamente relacionadas con la tabla de hechos.
¿Qué diferencia a un diagrama copo de nieve de uno estrella?
La diferencia principal es que en el diagrama copo de nieve las tablas de dimensiones están normalizadas, es decir, divididas en subtablas para evitar redundancia de datos, lo que genera una estructura más compleja. En cambio, el diagrama estrella tiene las dimensiones desnormalizadas, lo que significa que toda la información relevante de cada dimensión está en una única tabla. Por eso, el diagrama copo de nieve ahorra espacio, pero puede ser más lento para consultas, mientras que el diagrama estrella es más simple y rápido para acceder a los datos.
¿Cómo se utiliza un árbol de decisión para clasificación?
Un árbol de decisión clasifica dividiendo los datos en subconjuntos más pequeños basados en características relevantes. Cada nodo interno representa una condición sobre un atributo, y cada rama corresponde a un resultado posible de esa condición. El proceso comienza en la raíz y continúa hacia abajo hasta llegar a una hoja, que contiene la clase asignada. Por ejemplo, para clasificar un cliente como “aprobado” o “no aprobado” para un préstamo, el árbol puede usar criterios como ingresos, edad y antecedentes financieros. El objetivo es seguir las ramas correctas hasta llegar a una hoja que indique la categoría final del dato.
¿Qué es el sistema de aprendizaje de reglas por cobertura?
El aprendizaje de reglas por cobertura es una técnica en la que se generan reglas de clasificación para cubrir las instancias de un conjunto de datos. Se crea una regla que cubre tantas instancias positivas como sea posible sin incluir negativas. Después, las instancias cubiertas se eliminan del conjunto, y se repite el proceso hasta cubrir todas las instancias. Es útil para modelos interpretables donde cada regla representa una condición clara para clasificar instancias.
¿Cuáles son las técnicas para podar un árbol?
- Poda Previa (Pre-Pruning)
Consiste en detener el crecimiento del árbol antes de que alcance su máxima profundidad, estableciendo ciertos criterios para limitar el tamaño del árbol durante su construcción. Algunas técnicas de poda previa incluyen: - Profundidad máxima: Limitar la profundidad máxima del árbol.
- Mínimo número de muestras por nodo: Definir un número mínimo de datos que debe tener un nodo para poder dividirse.
- Mínimo número de muestras para realizar una división: Controla si un nodo puede dividirse basándose en el número de muestras que contiene.
- Ganancia mínima de información: No permitir una división si la ganancia de información es inferior a un umbral.
- Poda Posterior (Post-Pruning) Se realiza después de que el árbol se ha construido completamente. El proceso evalúa y elimina ramas que no contribuyen significativamente a mejorar el rendimiento del árbol. Algunas técnicas incluyen:
- Cost-Complexity Pruning: También conocido como poda basada en la complejidad del coste, donde se mide la relación entre el tamaño del árbol y el error de predicción. Se busca reducir el error mientras se minimiza la
complejidad del árbol. - Poda de reducción de error: Las ramas se eliminan si eliminarlas reduce el error del conjunto de validación, manteniendo solo aquellas que mejoran el rendimiento
- Poda de Costo Complejo (Cost-Complexity Pruning)
Esta técnica agrega un término de penalización basado en el tamaño del árbol. La función de coste que se minimiza incluye un término de error y un término que penaliza la complejidad. Esto implica encontrar un equilibrio entre la precisión y la simplicidad del modelo. - Poda basada en validación cruzada
Usa un conjunto de validación o una técnica de validación cruzada para evaluar el rendimiento del árbol en diferentes niveles de complejidad. El árbol se poda hasta encontrar la estructura que mejor generaliza en los datos de validación. - Poda de mínima complejidad (Minimal Cost-Complexity Pruning)
Una versión optimizada de la poda de costo-complejidad, esta técnica utiliza la validación cruzada para podar iterativamente ramas que no mejoran la precisión del modelo, comenzando por las menos importantes.
¿Cuál es la utilidad de un árbol de decisión?
Un árbol de decisión es útil en machine learning y en análisis de datos porque proporciona una manera clara y visual de tomar decisiones basadas en datos. Organiza las decisiones y sus posibles consecuencias en una estructura jerárquica, donde cada nodo representa una pregunta o criterio, y las ramas representan los posibles resultados. Esta herramienta permite clasificar, predecir, y resolver problemas tanto de clasificación como de regresión, ayudando a identificar patrones en los datos de manera interpretable. Además, es fácil de entender y comunicar, lo que lo hace valioso para explicar modelos a personas no técnicas.
¿Como se usa un árbol para clasificar datos?
Los árboles clasifican datos mediante su estructura jerárquica, donde cada nodo representa una característica y las ramas los posibles valores que se desprenden de la misma. Para clasificar un nuevo dato, se seguiría el camino que corresponde a sus características hasta llegar a una hoja que indique su clase.
¿En qué consiste la poda?
La poda consiste en reducir el tamaño del árbol eliminando ramas que no aportan valor significativo al modelo o que podrían causar sobreajuste. El objetivo es mejorar la capacidad de generalización del árbol, asegurando que se enfoque en los patrones relevantes sin adaptarse demasiado a los datos de entrenamiento.
¿En qué consiste la restructuración?
La reestructuración en árboles de decisión implica modificar la estructura del árbol para mejorar su rendimiento o interpretabilidad sin perder precisión. Esto puede incluir reorganizar nodos o cambiar el orden de los criterios de división. La reestructuración también puede ser útil para simplificar el modelo, haciéndolo más eficiente o comprensible. Por ejemplo, si una rama se encuentra redundante, podría ser reubicada o fusionada con otra que tenga un criterio similar
¿Cómo se estiman las probabilidades?
La estimación de probabilidades se puede realizar de varias maneras, la elección del método depende del tipo de datos y del objetivo del análisis, las más comunes son:
A. Frecuencia Relativa: La forma más sencilla de estimar la probabilidad de una clase es mediante la frecuencia relativa. Se cuenta el número de instancias en cada clase y se divide por el número total de instancias. Por ejemplo, si hay 30 instancias de una clase y 70 de otra en un conjunto de 100, la probabilidad para la primera clase es 30/100 = 0.3.
B. Cálculo en Nodos: En un árbol de decisión, cada nodo representa una decisión basada en una característica. Las probabilidades para cada clase se pueden calcular en cada nodo terminal (hoja) contando las instancias de cada clase en ese nodo y dividiéndolas por el total de instancias en la hoja.
C. Métodos de Enriquecimiento: En algunos casos, se pueden utilizar métodos estadísticos para ajustar las probabilidades, como el suavizado de Laplace, que evita que una clase con cero instancias tenga una probabilidad de cero.
D. Algoritmos de Aprendizaje Automático: Algoritmos como el Naive Bayes y los modelos de regresión logística pueden integrarse con árboles de decisión para calcular probabilidades más precisas a partir de características específicas.
E. Validación Cruzada: Se puede utilizar técnicas de validación cruzada para estimar la probabilidad de una clase en función de un conjunto de datos de entrenamiento y comprobar la precisión del modelo.
F. Clasificación de Probabilidades en Modelos: Algunos algoritmos de árboles de decisión, como los árboles de decisión de clasificación (CART, por sus siglas en inglés), pueden devolver probabilidades como parte de su salida, basadas en las proporciones de las clases en los nodos finales.
¿Qué abarca la minería de datos espaciales?
Se centra en bases de datos que contienen datos ubicados en un espacio, por ejemplo, datos geográficos o arquitectónicos. Usa técnicas de clasificación, reglas de asociación y agrupamiento de datos basados en relaciones espaciales (distancias, orientación, y proximidad).
¿Qué abarca la minería de datos temporales?
Se enfoca en datos que evolucionan con el tiempo, como series cronológicas. Identifica patrones en series de tiempo para predecir valores futuros, utilizando técnicas como el análisis de tendencias a largo plazo y movimientos estacionales.
¿Qué abarca la minería de datos secuenciales?
Detecta patrones en secuencias de eventos sin que el momento específico importe. Ejemplo: comportamiento de compra de clientes donde un producto lleva a otro en un intervalo de tiempo. Técnicas comunes incluyen clasificación, agrupamiento y reglas de asociación aplicadas a datos secuenciales.