Tema1 Flashcards
¿Qué tipo de modelos genera el aprendizaje automático?
A) Teóricos
B) Abstractos basados en datos históricos
C) Matemáticos ideales
D) Experimentales puramente cualitativos
B) Abstractos basados en datos históricos
¿Cuál es la primera fase de la metodología CRISP-DM?
A) Comprensión de los datos
B) Preparación de los datos
C) Comprensión del negocio
D) Modelado
C) Comprensión del negocio
¿Qué tipo de problemas aborda el aprendizaje supervisado?
A) Aquellos con una variable de salida definida
B) Problemas sin una variable de interés
C) Reducción de dimensionalidad
D) Optimización de procesos industriales
A) Aquellos con una variable de salida definida
¿Qué técnica se utiliza en aprendizaje no supervisado para crear grupos de datos similares?
A) Reglas de asociación
B) Reducción de dimensionalidad
C) Clustering
D) Regresión
C) Clustering
¿Qué implica la normalización de datos?
A) Transformar valores al rango continuo [0, 1]
B) Ajustar la media y la desviación típica
C) Eliminar valores ausentes
D) Crear nuevos atributos a partir de datos existentes
A) Transformar valores al rango continuo [0, 1]
¿Cuál es una técnica común para reemplazar valores ausentes?
A) Eliminación de la fila
B) Sustitución por la media, mediana o moda
C) Aplicación de normalización
D) Uso del algoritmo de clustering
B) Sustitución por la media, mediana o moda
¿Qué se analiza en la fase de comprensión de los datos?
A) Estructura y distribución de los datos
B) Interpretación de los modelos generados
C) Desarrollo del plan de proyecto
D) Aplicación de algoritmos de aprendizaje automático
A) Estructura y distribución de los datos
¿Qué técnica de selección de atributos elimina aquellos con valores casi constantes?
A) Eliminación por baja varianza
B) Clustering
C) Regresión
D) Estandarización
A) Eliminación por baja varianza
¿Qué tarea de limpieza verifica la consistencia y la cantidad de valores fuera de rango?
A) Recolección de datos iniciales
B) Verificación de la calidad de los datos
C) Selección de atributos
D) Normalización
B) Verificación de la calidad de los datos
¿Qué algoritmo asume una distribución normal para detectar outliers?
A) Árboles de decisión
B) Envolvente elíptica
C) Redes neuronales
D) Reglas de asociación
B) Envolvente elíptica
¿El aprendizaje automático genera modelos teóricos?
No, genera modelos empíricos basados en datos.
¿La metodología CRISP-DM incluye la fase de evaluación de negocio?
Sí.
¿En qué rango se transforman los valores durante la normalización?
En el rango [0, 1].
¿Es necesario que todos los datos tengan una variable de salida en aprendizaje supervisado?
Sí, para que se pueda aprender de ellos.
¿Los modelos en aprendizaje supervisado pueden ser de clasificación o regresión?
Sí.
¿El clustering es una técnica utilizada en aprendizaje supervisado?
No, es utilizada en aprendizaje no supervisado.
¿La eliminación por baja varianza es una técnica supervisada de selección de atributos?
No, es una técnica no supervisada.
¿Se puede utilizar la media para imputar valores ausentes en atributos numéricos?
Sí.
¿El algoritmo de envolvente elíptica supone que los datos siguen una distribución normal?
Sí.
¿El proceso KDD incluye la fase de comprensión del negocio como CRISP-DM?
No.
¿Qué tipo de modelos genera el aprendizaje automático?
A) Empíricos basados en datos históricos
B) Teóricos experimentales
C) Conceptuales sin datos
D) Cualitativos analíticos
A) Empíricos basados en datos históricos
¿Cuál es la fase inicial de la metodología CRISP-DM?
A) Comprensión de los datos
B) Evaluación del negocio
C) Comprensión del negocio
D) Modelado
C) Comprensión del negocio
¿Qué técnica se utiliza para agrupar datos similares en aprendizaje no supervisado?
A) Clasificación
B) Regresión
C) Clustering
D) Reducción de dimensionalidad
C) Clustering
¿Qué ocurre en la fase de normalización de datos?
A) Se eliminan valores atípicos
B) Se transforman los valores al rango [0, 1]
C) Se sustituyen los valores ausentes por la media
D) Se seleccionan atributos relevantes
B) Se transforman los valores al rango [0, 1]
¿Cuál es el objetivo principal de la imputación de valores ausentes?
A) Mejorar la calidad de los datos eliminando filas completas
B) Sustituir valores ausentes por estimaciones concretas
C) Identificar valores fuera de rango
D) Aplicar normalización a los datos
B) Sustituir valores ausentes por estimaciones concretas
¿Qué algoritmo detecta valores atípicos suponiendo una distribución normal?
A) Árboles de decisión
B) Envolvente elíptica
C) Regresión logística
D) K-means
B) Envolvente elíptica
¿Qué se utiliza para medir la dependencia lineal entre dos atributos?
A) Información mutua
B) F-test
C) Varianza
D) Escalado
B) F-test
¿Qué tipo de problemas resuelve el aprendizaje supervisado?
A) Inferencia y predicción
B) Clustering y asociación
C) Reducción de dimensionalidad
D) Generación de nuevos atributos
A) Inferencia y predicción
¿Qué tarea de limpieza de datos se centra en mejorar la consistencia de los valores?
A) Normalización
B) Imputación de valores ausentes
C) Verificación de la calidad de los datos
D) Selección de atributos
C) Verificación de la calidad de los datos
¿En qué consiste la eliminación por baja varianza?
A) Seleccionar atributos altamente correlacionados
B) Eliminar atributos que no varían significativamente
C) Reducir valores atípicos
D) Sustituir valores ausentes
B) Eliminar atributos que no varían significativamente
Explica qué es el aprendizaje automático y en qué se diferencia de los modelos teóricos.
El aprendizaje automático es una rama de conocimiento que utiliza algoritmos para generar modelos abstractos a partir de datos históricos. A diferencia de los modelos teóricos, que se basan en condiciones ideales y experimentales, los modelos de aprendizaje automático son empíricos y reflejan la realidad representada en los datos.
Describe la fase de comprensión del negocio en la metodología CRISP-DM y su importancia.
En esta fase se definen los objetivos y requisitos del proyecto desde una perspectiva empresarial, los cuales luego se traducen a objetivos técnicos. Es crucial porque asegura que los desarrollos estén alineados con las necesidades del negocio y proporciona una guía para las siguientes fases.
¿Qué es el aprendizaje supervisado y cómo se clasifican los problemas que aborda?
El aprendizaje supervisado se centra en problemas donde existe una variable de salida definida. Los problemas se clasifican en regresión, cuando la variable de salida es numérica, y clasificación, cuando la variable de salida es categórica.
Explica el propósito del clustering en aprendizaje no supervisado y su utilidad.
El clustering es una técnica que agrupa datos similares para dividir problemas complejos en partes manejables. Esto permite analizar y modelar cada grupo por separado y es útil para segmentación de mercados, identificación de patrones y sistemas de recomendación.
¿Por qué es importante normalizar los datos y cómo se realiza este proceso?
La normalización es importante porque evita que diferencias de escala entre atributos afecten los cálculos, como distancias o productos escalares. Se realiza transformando los valores al rango [0, 1], restando el mínimo de cada atributo y dividiendo por la diferencia entre el máximo y el mínimo.
Explica qué es la imputación de valores ausentes y menciona una técnica común para realizarla.
La imputación de valores ausentes reemplaza los valores faltantes en los datos para evitar problemas en las fases posteriores de análisis. Una técnica común es usar la media, mediana o moda del atributo en el que se encuentran los valores ausentes.
¿Qué significa reducción de la dimensionalidad y cuáles son sus beneficios en aprendizaje automático?
La reducción de la dimensionalidad disminuye el número de atributos o instancias en un conjunto de datos. Esto mejora la eficacia de los modelos al reducir el ruido y simplificar la interpretación, además de incrementar la eficiencia al disminuir el tiempo de procesamiento.
Describe el algoritmo de envolvente elíptica y su aplicación en la detección de valores atípicos.
Este algoritmo asume que los datos siguen una distribución normal. Crea superficies elípticas alrededor de los valores normales; los puntos fuera de estas superficies son considerados valores atípicos. Es útil para identificar anomalías que puedan afectar la calidad del modelo.
¿Cómo se evalúan los atributos en selección supervisada y cuál es la diferencia entre métricas univariantes y multivariantes?
Los atributos se evalúan para determinar su relevancia en la predicción de la clase. Las métricas univariantes miden la relación individual de un atributo con la clase, mientras que las multivariantes consideran interacciones entre varios atributos, aunque son más complejas computacionalmente.
Explica cómo la limpieza de datos mejora los resultados en proyectos de minería de datos.
La limpieza de datos elimina defectos como valores ausentes, atípicos o inconsistencias, asegurando que los datos estén en el formato adecuado. Esto reduce el ruido y mejora la precisión y la fiabilidad de los modelos en las fases posteriores.
Describe qué es la metodología CRISP-DM y sus principales fases.
La metodología CRISP-DM (Cross-Industry Standard Process for Data Mining) es un estándar utilizado en minería de datos que incluye seis fases principales: comprensión del negocio, comprensión de los datos, preparación de los datos, modelado, evaluación y despliegue. Estas fases son interdependientes y pueden implicar iteraciones para mejorar los resultados.
¿Qué tareas se realizan durante la fase de preparación de los datos en minería de datos?
Las tareas incluyen la selección, limpieza, construcción, integración y formateo de los datos. Esto asegura que los datos sean correctos, organizados y adecuados para la fase de modelado, reduciendo errores y mejorando la precisión de los modelos.
¿Cómo se clasifican los problemas que aborda el aprendizaje supervisado?
Los problemas se dividen en regresión, donde la variable de salida es numérica, y clasificación, donde la variable de salida es categórica. Ambos se centran en predecir valores de salida basados en las variables de entrada.
Describe las técnicas comunes de limpieza de datos y su importancia.
Entre las técnicas comunes están la normalización (ajustar valores al rango [0, 1]), estandarización (ajustar valores a una distribución con media 0 y desviación estándar 1), imputación de valores ausentes (reemplazar valores faltantes) y detección de valores atípicos (identificar outliers). Estas técnicas mejoran la calidad de los datos y la eficacia de los modelos.
¿Qué son los valores atípicos (outliers) y cómo afectan a los modelos de aprendizaje automático?
Los valores atípicos son datos que se encuentran fuera de la distribución natural de los valores. Pueden distorsionar los resultados de los modelos, reducir su precisión y provocar inferencias incorrectas si no se gestionan adecuadamente.
Describe las características que suelen observarse en un conjunto de datos antes de iniciar un proyecto.
Las características incluyen el número de instancias y atributos, el tipo y dominio de los datos de los atributos y la clase, la cantidad de valores ausentes, y una breve descripción de cada atributo y de la clase, si está presente.
¿Qué es la imputación de valores ausentes y cómo puede realizarse?
Es el proceso de reemplazar valores faltantes en un conjunto de datos para mantener la integridad de los análisis. Puede realizarse utilizando técnicas como la sustitución por la media, mediana o moda del atributo afectado.
¿Qué tareas comprende la fase de evaluación de negocio en CRISP-DM?
Esta fase incluye evaluar los resultados obtenidos en las fases anteriores, revisar el proceso para detectar errores o riesgos, y determinar los pasos siguientes, como finalizar el proyecto o realizar nuevas iteraciones.
Describe el aprendizaje no supervisado y menciona dos tipos de problemas que aborda.
El aprendizaje no supervisado no utiliza una variable de salida destacada. Los dos problemas principales que aborda son el clustering (agrupación de datos similares) y las reglas de asociación (descubrimiento de relaciones entre variables).
¿Qué papel juega la selección de atributos en la reducción de la dimensionalidad?
La selección de atributos identifica y elimina aquellos que no son relevantes o tienen poca variación, reduciendo la complejidad del conjunto de datos y mejorando la eficacia y eficiencia de los modelos de aprendizaje automático.