Parte 2 - Tema 48 Flashcards
Ciencia de datos
¿Qué es ETL (Extracción, Transformación y Carga)?
Es un proceso que implica extraer datos de diversas fuentes, transformarlos para que sean adecuados para el análisis y cargarlos en un almacenamiento final.
¿Cuáles son las principales etapas del ETL?
- Extracción: Obtener datos de fuentes como bases de datos, archivos CSV, APIs, etc.
- Transformación: Limpiar, transformar y integrar los datos, incluyendo la gestión de valores faltantes, la normalización y la agregación.
- Carga: Cargar los datos transformados en un almacén de datos o un data lake.
¿Por qué es importante el preprocesamiento de datos?
Asegura la calidad de los datos, elimina inconsistencias y prepara los datos para el modelado.
¿Qué técnicas de preprocesamiento se utilizan comúnmente?
Limpieza de datos (manejo de valores faltantes, outliers, etc.), transformación de variables (normalización, estandarización), reducción de dimensionalidad.
¿Cuáles son las principales etapas del modelado?
- Selección de características: Identificar las variables más relevantes para el modelo.
- Selección del algoritmo: Elegir el algoritmo de machine learning adecuado (regresión, clasificación, clustering, etc.).
- Entrenamiento del modelo: Ajustar los parámetros del modelo a los datos de entrenamiento.
¿Qué es el sobreajuste y el subajuste?
- Sobreajuste: Cuando el modelo se ajusta demasiado bien a los datos de entrenamiento y no generaliza bien a nuevos datos.
- Subajuste: Cuando el modelo no captura la complejidad de los datos y no es capaz de realizar predicciones precisas.
¿Por qué es importante validar un modelo?
Para evaluar el desempeño del modelo y asegurarse de que generaliza bien a nuevos datos.
¿Qué métricas se utilizan para evaluar los modelos?
Precisión, recall, F1-score, matriz de confusión, curva ROC, etc.
¿Qué técnicas de validación cruzada se utilizan?
K-fold cross-validation, holdout validation.
¿Qué son las MLOps (Machine Learning Operations)?
Un conjunto de prácticas que automatizan y optimizan el ciclo de vida completo de un modelo de machine learning, desde el desarrollo hasta la producción.
¿Cuáles son los principales componentes de MLOps?
Integración continua, despliegue continuo, monitoreo de modelos, gestión de versiones.
¿Cuáles son las principales herramientas utilizadas en Ciencia de Datos?
Python (Pandas, NumPy, Scikit-learn), R, SQL, Jupyter Notebook, plataformas en la nube como Google Colab, AWS SageMaker y Azure Machine Learning.
¿Qué es un entorno de desarrollo integrado (IDE) para Ciencia de Datos?
Un software que proporciona un entorno completo para escribir, ejecutar y depurar código, como PyCharm, RStudio o Visual Studio Code.
¿Qué es un notebook de Jupyter?
Un entorno interactivo que combina código, visualizaciones y texto narrativo, ideal para explorar datos y desarrollar modelos.
¿Por qué Python es popular en Ciencia de Datos?
Por su sintaxis sencilla, amplia comunidad, y una gran cantidad de bibliotecas especializadas para análisis de datos y machine learning.