Parte 2 - Tema 48 Flashcards
Ciencia de datos
¿Qué es ETL (Extracción, Transformación y Carga)?
Es un proceso que implica extraer datos de diversas fuentes, transformarlos para que sean adecuados para el análisis y cargarlos en un almacenamiento final.
¿Cuáles son las principales etapas del ETL?
- Extracción: Obtener datos de fuentes como bases de datos, archivos CSV, APIs, etc.
- Transformación: Limpiar, transformar y integrar los datos, incluyendo la gestión de valores faltantes, la normalización y la agregación.
- Carga: Cargar los datos transformados en un almacén de datos o un data lake.
¿Por qué es importante el preprocesamiento de datos?
Asegura la calidad de los datos, elimina inconsistencias y prepara los datos para el modelado.
¿Qué técnicas de preprocesamiento se utilizan comúnmente?
Limpieza de datos (manejo de valores faltantes, outliers, etc.), transformación de variables (normalización, estandarización), reducción de dimensionalidad.
¿Cuáles son las principales etapas del modelado?
- Selección de características: Identificar las variables más relevantes para el modelo.
- Selección del algoritmo: Elegir el algoritmo de machine learning adecuado (regresión, clasificación, clustering, etc.).
- Entrenamiento del modelo: Ajustar los parámetros del modelo a los datos de entrenamiento.
¿Qué es el sobreajuste y el subajuste?
- Sobreajuste: Cuando el modelo se ajusta demasiado bien a los datos de entrenamiento y no generaliza bien a nuevos datos.
- Subajuste: Cuando el modelo no captura la complejidad de los datos y no es capaz de realizar predicciones precisas.
¿Por qué es importante validar un modelo?
Para evaluar el desempeño del modelo y asegurarse de que generaliza bien a nuevos datos.
¿Qué métricas se utilizan para evaluar los modelos?
Precisión, recall, F1-score, matriz de confusión, curva ROC, etc.
¿Qué técnicas de validación cruzada se utilizan?
K-fold cross-validation, holdout validation.
¿Qué son las MLOps (Machine Learning Operations)?
Un conjunto de prácticas que automatizan y optimizan el ciclo de vida completo de un modelo de machine learning, desde el desarrollo hasta la producción.
¿Cuáles son los principales componentes de MLOps?
Integración continua, despliegue continuo, monitoreo de modelos, gestión de versiones.
¿Cuáles son las principales herramientas utilizadas en Ciencia de Datos?
Python (Pandas, NumPy, Scikit-learn), R, SQL, Jupyter Notebook, plataformas en la nube como Google Colab, AWS SageMaker y Azure Machine Learning.
¿Qué es un entorno de desarrollo integrado (IDE) para Ciencia de Datos?
Un software que proporciona un entorno completo para escribir, ejecutar y depurar código, como PyCharm, RStudio o Visual Studio Code.
¿Qué es un notebook de Jupyter?
Un entorno interactivo que combina código, visualizaciones y texto narrativo, ideal para explorar datos y desarrollar modelos.
¿Por qué Python es popular en Ciencia de Datos?
Por su sintaxis sencilla, amplia comunidad, y una gran cantidad de bibliotecas especializadas para análisis de datos y machine learning.
¿Qué diferencia a R de Python en Ciencia de Datos?
R es más especializado en estadística y visualización de datos, mientras que Python es más versátil y utilizado en una amplia gama de aplicaciones.
¿Cuándo usar SQL en Ciencia de Datos?
Para interactuar con bases de datos relacionales, extraer datos y realizar consultas SQL.
¿Qué es el trade-off sesgo-varianza?
Es el equilibrio entre la simplicidad y la complejidad de un modelo. Un modelo simple (alto sesgo) puede no capturar las relaciones subyacentes en los datos, mientras que un modelo complejo (alta varianza) puede sobreajustarse a los datos de entrenamiento.
¿Qué es el sesgo en un modelo?
El sesgo es el error sistemático que se produce cuando un modelo hace suposiciones incorrectas sobre los datos.
¿Qué es la varianza en un modelo?
La varianza mide cuánto cambia la predicción de un modelo cuando se entrena con diferentes conjuntos de datos.
¿Cómo se relaciona el trade-off sesgo-varianza con el sobreajuste y el subajuste?
Un modelo con alto sesgo está subajustado, mientras que un modelo con alta varianza está sobreajustado.
¿Cuáles son las fases típicas de un proyecto de aprendizaje máquina?
Definición del problema, recopilación de datos, preprocesamiento, exploración de datos, modelado, evaluación y despliegue.
¿Cuál es la importancia de la definición del problema en un proyecto de aprendizaje máquina?
Una definición clara del problema guía todo el proyecto, desde la elección de los datos hasta la evaluación del modelo.
¿Qué es el preprocesamiento de datos en aprendizaje máquina?
Es el proceso de limpiar, transformar y preparar los datos para el modelado, incluyendo la gestión de valores faltantes, la normalización y la codificación de variables categóricas.
¿Qué es el aprendizaje profundo?
Es un subcampo del aprendizaje máquina que utiliza redes neuronales artificiales con múltiples capas para aprender representaciones jerárquicas de datos.
¿Cuál es la diferencia entre aprendizaje máquina y aprendizaje profundo?
El aprendizaje profundo utiliza redes neuronales más complejas con muchas capas, mientras que el aprendizaje máquina tradicional utiliza algoritmos más simples.
¿Cuáles son las principales aplicaciones del aprendizaje profundo?
Visión por computadora, procesamiento del lenguaje natural, reconocimiento de voz, generación de contenido.
¿Qué es una red neuronal artificial?
Es un modelo computacional inspirado en el cerebro humano, compuesto por nodos interconectados que procesan información.
¿Cuáles son los componentes principales de una red neuronal?
Neuronas, capas, pesos y sesgos.
¿Qué es una neurona artificial?
La unidad básica de una red neuronal, que realiza una operación matemática simple sobre sus entradas y produce una salida.
¿Qué es la regularización en aprendizaje máquina?
Un conjunto de técnicas utilizadas para prevenir el sobreajuste, penalizando modelos complejos.
¿Cuáles son los tipos más comunes de regularización?
L1 (Lasso), L2 (Ridge), Dropout.
¿Qué es la optimización en aprendizaje máquina?
El proceso de encontrar los valores óptimos de los parámetros de un modelo que minimizan una función de pérdida.
¿Cuáles son los algoritmos de optimización más comunes?
Descenso del gradiente, Adam, RMSprop