Parte 2 - Tema 48 Flashcards

Ciencia de datos

1
Q

¿Qué es ETL (Extracción, Transformación y Carga)?

A

Es un proceso que implica extraer datos de diversas fuentes, transformarlos para que sean adecuados para el análisis y cargarlos en un almacenamiento final.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

¿Cuáles son las principales etapas del ETL?

A
  • Extracción: Obtener datos de fuentes como bases de datos, archivos CSV, APIs, etc.
  • Transformación: Limpiar, transformar y integrar los datos, incluyendo la gestión de valores faltantes, la normalización y la agregación.
  • Carga: Cargar los datos transformados en un almacén de datos o un data lake.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

¿Por qué es importante el preprocesamiento de datos?

A

Asegura la calidad de los datos, elimina inconsistencias y prepara los datos para el modelado.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

¿Qué técnicas de preprocesamiento se utilizan comúnmente?

A

Limpieza de datos (manejo de valores faltantes, outliers, etc.), transformación de variables (normalización, estandarización), reducción de dimensionalidad.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

¿Cuáles son las principales etapas del modelado?

A
  • Selección de características: Identificar las variables más relevantes para el modelo.
  • Selección del algoritmo: Elegir el algoritmo de machine learning adecuado (regresión, clasificación, clustering, etc.).
  • Entrenamiento del modelo: Ajustar los parámetros del modelo a los datos de entrenamiento.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

¿Qué es el sobreajuste y el subajuste?

A
  • Sobreajuste: Cuando el modelo se ajusta demasiado bien a los datos de entrenamiento y no generaliza bien a nuevos datos.
  • Subajuste: Cuando el modelo no captura la complejidad de los datos y no es capaz de realizar predicciones precisas.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

¿Por qué es importante validar un modelo?

A

Para evaluar el desempeño del modelo y asegurarse de que generaliza bien a nuevos datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

¿Qué métricas se utilizan para evaluar los modelos?

A

Precisión, recall, F1-score, matriz de confusión, curva ROC, etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

¿Qué técnicas de validación cruzada se utilizan?

A

K-fold cross-validation, holdout validation.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

¿Qué son las MLOps (Machine Learning Operations)?

A

Un conjunto de prácticas que automatizan y optimizan el ciclo de vida completo de un modelo de machine learning, desde el desarrollo hasta la producción.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

¿Cuáles son los principales componentes de MLOps?

A

Integración continua, despliegue continuo, monitoreo de modelos, gestión de versiones.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

¿Cuáles son las principales herramientas utilizadas en Ciencia de Datos?

A

Python (Pandas, NumPy, Scikit-learn), R, SQL, Jupyter Notebook, plataformas en la nube como Google Colab, AWS SageMaker y Azure Machine Learning.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

¿Qué es un entorno de desarrollo integrado (IDE) para Ciencia de Datos?

A

Un software que proporciona un entorno completo para escribir, ejecutar y depurar código, como PyCharm, RStudio o Visual Studio Code.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

¿Qué es un notebook de Jupyter?

A

Un entorno interactivo que combina código, visualizaciones y texto narrativo, ideal para explorar datos y desarrollar modelos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

¿Por qué Python es popular en Ciencia de Datos?

A

Por su sintaxis sencilla, amplia comunidad, y una gran cantidad de bibliotecas especializadas para análisis de datos y machine learning.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

¿Qué diferencia a R de Python en Ciencia de Datos?

A

R es más especializado en estadística y visualización de datos, mientras que Python es más versátil y utilizado en una amplia gama de aplicaciones.

17
Q

¿Cuándo usar SQL en Ciencia de Datos?

A

Para interactuar con bases de datos relacionales, extraer datos y realizar consultas SQL.

18
Q

¿Qué es el trade-off sesgo-varianza?

A

Es el equilibrio entre la simplicidad y la complejidad de un modelo. Un modelo simple (alto sesgo) puede no capturar las relaciones subyacentes en los datos, mientras que un modelo complejo (alta varianza) puede sobreajustarse a los datos de entrenamiento.

19
Q

¿Qué es el sesgo en un modelo?

A

El sesgo es el error sistemático que se produce cuando un modelo hace suposiciones incorrectas sobre los datos.

20
Q

¿Qué es la varianza en un modelo?

A

La varianza mide cuánto cambia la predicción de un modelo cuando se entrena con diferentes conjuntos de datos.

21
Q

¿Cómo se relaciona el trade-off sesgo-varianza con el sobreajuste y el subajuste?

A

Un modelo con alto sesgo está subajustado, mientras que un modelo con alta varianza está sobreajustado.

22
Q

¿Cuáles son las fases típicas de un proyecto de aprendizaje máquina?

A

Definición del problema, recopilación de datos, preprocesamiento, exploración de datos, modelado, evaluación y despliegue.

23
Q

¿Cuál es la importancia de la definición del problema en un proyecto de aprendizaje máquina?

A

Una definición clara del problema guía todo el proyecto, desde la elección de los datos hasta la evaluación del modelo.

24
Q

¿Qué es el preprocesamiento de datos en aprendizaje máquina?

A

Es el proceso de limpiar, transformar y preparar los datos para el modelado, incluyendo la gestión de valores faltantes, la normalización y la codificación de variables categóricas.

25
Q

¿Qué es el aprendizaje profundo?

A

Es un subcampo del aprendizaje máquina que utiliza redes neuronales artificiales con múltiples capas para aprender representaciones jerárquicas de datos.

26
Q

¿Cuál es la diferencia entre aprendizaje máquina y aprendizaje profundo?

A

El aprendizaje profundo utiliza redes neuronales más complejas con muchas capas, mientras que el aprendizaje máquina tradicional utiliza algoritmos más simples.

27
Q

¿Cuáles son las principales aplicaciones del aprendizaje profundo?

A

Visión por computadora, procesamiento del lenguaje natural, reconocimiento de voz, generación de contenido.

28
Q

¿Qué es una red neuronal artificial?

A

Es un modelo computacional inspirado en el cerebro humano, compuesto por nodos interconectados que procesan información.

29
Q

¿Cuáles son los componentes principales de una red neuronal?

A

Neuronas, capas, pesos y sesgos.

30
Q

¿Qué es una neurona artificial?

A

La unidad básica de una red neuronal, que realiza una operación matemática simple sobre sus entradas y produce una salida.

31
Q

¿Qué es la regularización en aprendizaje máquina?

A

Un conjunto de técnicas utilizadas para prevenir el sobreajuste, penalizando modelos complejos.

32
Q

¿Cuáles son los tipos más comunes de regularización?

A

L1 (Lasso), L2 (Ridge), Dropout.

33
Q

¿Qué es la optimización en aprendizaje máquina?

A

El proceso de encontrar los valores óptimos de los parámetros de un modelo que minimizan una función de pérdida.

34
Q

¿Cuáles son los algoritmos de optimización más comunes?

A

Descenso del gradiente, Adam, RMSprop