DataScience 20250112-1 Flashcards

1
Q

¿Qué es la ciencia de datos?

A

La ciencia de datos es un campo interdisciplinario que utiliza métodos, procesos, algoritmos y sistemas científicos para extraer conocimiento y obtener insights de datos estructurados y no estructurados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

¿Cuáles son las principales etapas de un proyecto de ciencia de datos?

A

Las principales etapas son: definición del problema, recopilación de datos, limpieza de datos, análisis exploratorio, modelado, validación, y despliegue.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

¿Qué es el aprendizaje supervisado?

A

Es un tipo de aprendizaje automático donde el modelo se entrena con datos etiquetados para predecir resultados específicos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

¿Qué es el aprendizaje no supervisado?

A

Es un tipo de aprendizaje automático donde el modelo trabaja con datos no etiquetados para identificar patrones y estructuras subyacentes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

¿Qué es una matriz de confusión?

A

Es una herramienta utilizada para evaluar el rendimiento de un modelo de clasificación, mostrando verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

¿Qué es el sobreajuste (overfitting) en machine learning?

A

Es cuando un modelo aprende demasiado bien los datos de entrenamiento, incluyendo el ruido, lo que reduce su capacidad de generalización a nuevos datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

¿Qué es la validación cruzada?

A

Es una técnica para evaluar la capacidad de generalización de un modelo dividiendo los datos en múltiples subconjuntos y entrenando y evaluando el modelo en diferentes combinaciones.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

¿Cuáles son las técnicas comunes de limpieza de datos?

A

Eliminar valores nulos, corregir errores tipográficos, eliminar duplicados, y normalizar datos son algunas técnicas comunes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

¿Qué es la ingeniería de características (feature engineering)?

A

Es el proceso de seleccionar, modificar o crear nuevas variables a partir de los datos existentes para mejorar el rendimiento del modelo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

¿Cuál es la diferencia entre clasificación y regresión?

A

La clasificación predice categorías discretas, mientras que la regresión predice valores continuos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

¿Qué es un árbol de decisión?

A

Es un modelo de aprendizaje supervisado que utiliza una estructura de árbol para tomar decisiones basadas en características de los datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

¿Qué es el análisis exploratorio de datos (EDA)?

A

Es el proceso de analizar conjuntos de datos para resumir sus principales características, a menudo utilizando visualizaciones.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

¿Qué es el descenso de gradiente?

A

Es un algoritmo de optimización utilizado para minimizar la función de pérdida ajustando iterativamente los parámetros del modelo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

¿Qué es una red neuronal artificial?

A

Es un modelo de aprendizaje automático inspirado en el cerebro humano, compuesto por capas de nodos interconectados que procesan información.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

¿Qué es el clustering en aprendizaje no supervisado?

A

Es una técnica para agrupar un conjunto de objetos de tal manera que los objetos en el mismo grupo sean más similares entre sí que con los de otros grupos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

¿Qué es el análisis de componentes principales (PCA)?

A

Es una técnica de reducción de dimensionalidad que transforma un conjunto de variables posiblemente correlacionadas en un conjunto de variables no correlacionadas llamadas componentes principales.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

¿Qué es un modelo de regresión logística?

A

Es un modelo estadístico utilizado para predecir la probabilidad de una categoría binaria basada en una o más variables independientes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

¿Qué es el sesgo y la varianza en machine learning?

A

El sesgo es el error debido a suposiciones simplificadas en el modelo, mientras que la varianza es el error debido a la sensibilidad del modelo a pequeñas fluctuaciones en los datos de entrenamiento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

¿Qué es el conjunto de entrenamiento (training set)?

A

Es el subconjunto de datos utilizado para entrenar el modelo de aprendizaje automático.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

¿Qué es el conjunto de prueba (test set)?

A

Es el subconjunto de datos utilizado para evaluar el rendimiento del modelo después del entrenamiento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

¿Qué es la regularización en machine learning?

A

Es una técnica utilizada para prevenir el sobreajuste añadiendo una penalización a la complejidad del modelo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

¿Qué es el aprendizaje profundo (deep learning)?

A

Es una subárea del aprendizaje automático que utiliza redes neuronales profundas con múltiples capas para modelar datos complejos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

¿Qué es un modelo de bosques aleatorios (random forest)?

A

Es un modelo de ensamblaje que construye múltiples árboles de decisión y los combina para mejorar la precisión y reducir el sobreajuste.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

¿Qué es el boosting en machine learning?

A

Es una técnica de ensamblaje que combina múltiples modelos débiles para crear un modelo fuerte, enfocándose en los errores cometidos por modelos anteriores.

25
Q

¿Qué es el k-means clustering?

A

Es un algoritmo de agrupamiento que divide los datos en k grupos basándose en la distancia mínima entre los puntos y los centroides de los grupos.

26
Q

¿Qué es la regresión lineal?

A

Es un modelo estadístico que establece una relación lineal entre una variable dependiente y una o más variables independientes.

27
Q

¿Qué es el análisis de series temporales?

A

Es una técnica utilizada para analizar datos ordenados en el tiempo con el fin de identificar patrones, tendencias y hacer predicciones futuras.

28
Q

¿Qué es una variable categórica?

A

Es una variable que toma valores discretos y mutuamente excluyentes, como colores o tipos de producto.

29
Q

¿Qué es una variable continua?

A

Es una variable que puede tomar cualquier valor dentro de un rango, como la temperatura o el salario.

30
Q

¿Qué es la validación cruzada k-fold?

A

Es una técnica donde los datos se dividen en k subconjuntos, y el modelo se entrena y evalúa k veces, cada vez usando un subconjunto diferente como conjunto de prueba.

31
Q

¿Qué es la entropía en el contexto de árboles de decisión?

A

Es una medida de impureza o desorden en un conjunto de datos, utilizada para determinar la mejor característica para dividir los nodos en un árbol de decisión.

32
Q

¿Qué es el análisis de sentimientos?

A

Es una técnica de procesamiento de lenguaje natural que identifica y extrae opiniones subjetivas de los textos para determinar la actitud de un hablante o escritor respecto a un tema.

33
Q

¿Qué es la normalización de datos?

A

Es el proceso de ajustar los valores de los datos para que se encuentren dentro de un rango específico, generalmente para mejorar el rendimiento del modelo.

34
Q

¿Qué es el escalado de datos (scaling)?

A

Es una técnica de preprocesamiento que ajusta la escala de las variables para que tengan igual importancia en el modelo, comúnmente usando estandarización o normalización.

35
Q

¿Qué es el aprendizaje por refuerzo?

A

Es un tipo de aprendizaje automático donde un agente aprende a tomar decisiones mediante recompensas y castigos en un entorno interactivo.

36
Q

¿Qué es el análisis de supervivencia?

A

Es una rama de la estadística que analiza el tiempo hasta que ocurre un evento de interés, como la falla de un componente o la muerte de un paciente.

37
Q

¿Qué es la minería de datos?

A

Es el proceso de descubrir patrones, correlaciones y tendencias significativas en grandes conjuntos de datos utilizando técnicas de estadística, machine learning y bases de datos.

38
Q

¿Qué es el procesamiento de lenguaje natural (NLP)?

A

Es una subárea de la inteligencia artificial que se enfoca en la interacción entre computadoras y lenguaje humano, permitiendo a las máquinas entender y generar texto y voz.

39
Q

¿Qué es un modelo de regresión polinómica?

A

Es un modelo de regresión que utiliza polinomios de mayor grado para capturar relaciones no lineales entre la variable dependiente y las independientes.

40
Q

¿Qué es el análisis de conglomerados (cluster analysis)?

A

Es una técnica de estadística multivariada utilizada para agrupar un conjunto de objetos de manera que los objetos dentro del mismo grupo sean más similares entre sí que con los de otros grupos.

41
Q

¿Qué es la reducción de dimensionalidad y por qué es importante?

A

Es el proceso de reducir el número de variables bajo consideración, mejorando la eficiencia del modelo y reduciendo el riesgo de sobreajuste.

42
Q

¿Qué es un diagrama de dispersión y para qué se utiliza?

A

Es una gráfica que muestra la relación entre dos variables cuantitativas, utilizada para identificar patrones, tendencias y correlaciones.

43
Q

¿Qué es el análisis de componentes principales (PCA) y cómo se utiliza?

A

Es una técnica de reducción de dimensionalidad que transforma un conjunto de variables correlacionadas en un conjunto de variables no correlacionadas llamadas componentes principales, usadas para simplificar el análisis y visualización de datos.

44
Q

¿Qué es un modelo de clasificación binaria?

A

Es un modelo de machine learning que categoriza las observaciones en una de dos clases posibles, como spam o no spam.

45
Q

¿Qué es el etiquetado de datos y por qué es importante?

A

Es el proceso de asignar etiquetas o categorías a los datos, esencial para entrenar modelos supervisados de machine learning.

46
Q

¿Qué es el análisis de conglomerados jerárquico?

A

Es una técnica de clustering que construye una jerarquía de clusters, ya sea de forma aglomerativa (desde abajo hacia arriba) o divisiva (desde arriba hacia abajo).

47
Q

¿Qué es el término ‘big data’?

A

Se refiere a conjuntos de datos tan grandes y complejos que las aplicaciones de procesamiento de datos tradicionales son insuficientes para gestionarlos y analizarlos eficientemente.

48
Q

¿Qué es la inteligencia artificial en ciencia de datos?

A

Es el uso de algoritmos y modelos para permitir que las computadoras realicen tareas que normalmente requieren inteligencia humana, como reconocimiento de patrones, toma de decisiones y predicciones.

49
Q

¿Qué es un feature vector?

A

Es una representación numérica de las características de un objeto, utilizada como entrada para los algoritmos de machine learning.

50
Q

¿Qué es el sesgo de selección y cómo afecta a los modelos de ciencia de datos?

A

Es un tipo de error que ocurre cuando los datos de entrenamiento no son representativos del conjunto de datos general, lo que puede llevar a modelos que no generalizan bien.

51
Q

¿Qué es el análisis de varianza (ANOVA)?

A

Es una técnica estadística utilizada para comparar las medias de tres o más grupos y determinar si al menos una de ellas difiere significativamente de las demás.

52
Q

¿Qué es un gráfico de caja (box plot) y para qué se utiliza?

A

Es una representación gráfica que muestra la distribución de un conjunto de datos a través de sus cuartiles, ayudando a identificar valores atípicos y comparar diferentes grupos.

53
Q

¿Qué es el análisis de correlación y por qué es importante?

A

Es una técnica estadística que mide la fuerza y la dirección de la relación entre dos variables, importante para identificar asociaciones y construir modelos predictivos.

54
Q

¿Qué es el análisis de componentes independientes (ICA)?

A

Es una técnica de separación de señales que descompone un conjunto de señales multivariadas en componentes estadísticamente independientes, utilizada en procesamiento de señales y análisis de datos.

55
Q

¿Qué es la validación de modelos y cuáles son sus métodos comunes?

A

Es el proceso de evaluar el rendimiento de un modelo en datos no vistos para asegurar su capacidad de generalización. Métodos comunes incluyen la validación cruzada y el uso de conjuntos de prueba separados.

56
Q

¿Qué es la técnica de bagging en machine learning?

A

Es una técnica de ensamblaje que crea múltiples versiones del modelo entrenando con diferentes subconjuntos de datos y luego promedia sus predicciones para mejorar la precisión y reducir el sobreajuste.

57
Q

¿Qué es la técnica de boosting en machine learning?

A

Es una técnica de ensamblaje que combina múltiples modelos débiles secuencialmente, enfocándose en los errores de los modelos anteriores para crear un modelo fuerte y preciso.

58
Q

¿Qué es el aprendizaje semi-supervisado?

A

Es un enfoque de machine learning que utiliza una combinación de datos etiquetados y no etiquetados para entrenar modelos, aprovechando la abundancia de datos no etiquetados.

59
Q

¿Qué es un modelo de regresión robusta?

A

Es un tipo de modelo de regresión que es resistente a la influencia de valores atípicos y proporciona estimaciones más confiables en presencia de datos ruidosos.