DataScience 20250112-1 Flashcards
¿Qué es la ciencia de datos?
La ciencia de datos es un campo interdisciplinario que utiliza métodos, procesos, algoritmos y sistemas científicos para extraer conocimiento y obtener insights de datos estructurados y no estructurados.
¿Cuáles son las principales etapas de un proyecto de ciencia de datos?
Las principales etapas son: definición del problema, recopilación de datos, limpieza de datos, análisis exploratorio, modelado, validación, y despliegue.
¿Qué es el aprendizaje supervisado?
Es un tipo de aprendizaje automático donde el modelo se entrena con datos etiquetados para predecir resultados específicos.
¿Qué es el aprendizaje no supervisado?
Es un tipo de aprendizaje automático donde el modelo trabaja con datos no etiquetados para identificar patrones y estructuras subyacentes.
¿Qué es una matriz de confusión?
Es una herramienta utilizada para evaluar el rendimiento de un modelo de clasificación, mostrando verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos.
¿Qué es el sobreajuste (overfitting) en machine learning?
Es cuando un modelo aprende demasiado bien los datos de entrenamiento, incluyendo el ruido, lo que reduce su capacidad de generalización a nuevos datos.
¿Qué es la validación cruzada?
Es una técnica para evaluar la capacidad de generalización de un modelo dividiendo los datos en múltiples subconjuntos y entrenando y evaluando el modelo en diferentes combinaciones.
¿Cuáles son las técnicas comunes de limpieza de datos?
Eliminar valores nulos, corregir errores tipográficos, eliminar duplicados, y normalizar datos son algunas técnicas comunes.
¿Qué es la ingeniería de características (feature engineering)?
Es el proceso de seleccionar, modificar o crear nuevas variables a partir de los datos existentes para mejorar el rendimiento del modelo.
¿Cuál es la diferencia entre clasificación y regresión?
La clasificación predice categorías discretas, mientras que la regresión predice valores continuos.
¿Qué es un árbol de decisión?
Es un modelo de aprendizaje supervisado que utiliza una estructura de árbol para tomar decisiones basadas en características de los datos.
¿Qué es el análisis exploratorio de datos (EDA)?
Es el proceso de analizar conjuntos de datos para resumir sus principales características, a menudo utilizando visualizaciones.
¿Qué es el descenso de gradiente?
Es un algoritmo de optimización utilizado para minimizar la función de pérdida ajustando iterativamente los parámetros del modelo.
¿Qué es una red neuronal artificial?
Es un modelo de aprendizaje automático inspirado en el cerebro humano, compuesto por capas de nodos interconectados que procesan información.
¿Qué es el clustering en aprendizaje no supervisado?
Es una técnica para agrupar un conjunto de objetos de tal manera que los objetos en el mismo grupo sean más similares entre sí que con los de otros grupos.
¿Qué es el análisis de componentes principales (PCA)?
Es una técnica de reducción de dimensionalidad que transforma un conjunto de variables posiblemente correlacionadas en un conjunto de variables no correlacionadas llamadas componentes principales.
¿Qué es un modelo de regresión logística?
Es un modelo estadístico utilizado para predecir la probabilidad de una categoría binaria basada en una o más variables independientes.
¿Qué es el sesgo y la varianza en machine learning?
El sesgo es el error debido a suposiciones simplificadas en el modelo, mientras que la varianza es el error debido a la sensibilidad del modelo a pequeñas fluctuaciones en los datos de entrenamiento.
¿Qué es el conjunto de entrenamiento (training set)?
Es el subconjunto de datos utilizado para entrenar el modelo de aprendizaje automático.
¿Qué es el conjunto de prueba (test set)?
Es el subconjunto de datos utilizado para evaluar el rendimiento del modelo después del entrenamiento.
¿Qué es la regularización en machine learning?
Es una técnica utilizada para prevenir el sobreajuste añadiendo una penalización a la complejidad del modelo.
¿Qué es el aprendizaje profundo (deep learning)?
Es una subárea del aprendizaje automático que utiliza redes neuronales profundas con múltiples capas para modelar datos complejos.
¿Qué es un modelo de bosques aleatorios (random forest)?
Es un modelo de ensamblaje que construye múltiples árboles de decisión y los combina para mejorar la precisión y reducir el sobreajuste.