Análisis de ciencia de datos Flashcards

Introducción a la ciencia de datos, Adquisición y preparación de datos, Modelación y visualización

1
Q

¿Qué es el análisis de datos descriptivo?

A

Ahonda en los datos pasados para averiguar información sobre lo acontecido en el histórico. Responde: “¿Qué ha pasado?”.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

¿Qué es el análisis de datos predictivo?

A

Utilizan estadísticas y técnicas de modelado para hacer predicciones sobre resultados y rendimiento futuros. Examina los patrones de datos actuales e históricos para determinar si es probable que esos patrones vuelvan a surgir. Responde: “¿Qué va a pasar?”.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

¿Qué es el análisis de datos prescriptivo?

A

Toma en cuenta la información sobre posibles situaciones o escenarios, los recursos disponibles, el rendimiento pasado y el rendimiento actual, y sugiere una estrategia operativa. Responde: “¿Cuál es la mejor estrategia a seguir?”.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

¿Qué es un DataFrame en pandas?

A

Una estructura de datos bidimensional, similar a una tabla, con etiquetas de filas y columnas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

¿Qué librerías en Python se utilizan para la adquisición de datos?

A

pandas (CSV, Excel, JSON, SQL), requests (APIs), BeautifulSoup y Scrapy (scraping web).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

¿Qué es un data model?

A

Un data model especifica como piensas el mundo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

¿Cuáles son los tipos de modelo?

A

Plano, relacional, documento, red.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

¿Qué es un modelo plano?

A

Un modelo simple en donde hay un tipo de entidad y todas tienen el mismo atributo. Ejemplo: log files, cdv

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

¿Qué es un modelo relacional?

A

Un modelo con mucha entidades que están conectadas por relaciones. Ejemplo: SQL

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

¿Qué es un modelo documento?

A

Un modelo donde hay jerarquía de entidades. Ejemplo: XML, JSON

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

¿Qué es un modelo red?

A

Un modelo red compleja de entidades. Ejemplo: amigos en Facebook.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

¿Para qué sirve la transformación de datos? (Data wrangling)

A

Tiene como objetivo extraer y estnadarizar raw data. Combinar multiples fuentes y limpiar anomalías.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

¿Qué tipos de problemas de datos podemos enfrentar?

A

Valores faltantes, incorrectos, inconsistencia en la representación.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

¿Cómo podemos identificar outliers?

A

Con una visualización de la distribución de valores de una variable.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

¿Cuál es una técnica de reducción de dimensionalidad?

A

Principal Component Analysis (PCA). Reduce el número de dimensiones en grandes conjuntos de datos a componentes principales que conservan la mayor parte de la información original.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

¿Qué es la correlación?

A

La correlación indica la fuerza y la dirección de una relación lineal y la proporcionalidad entre dos variables estadísticas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

¿Qué es el coeficiente de correlación de Pearson?

A

Es un coeficiente de correlación que mide la correlación lineal entre dos conjuntos de datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Verdadero o falso: correlación implica causalidad.

A

Falso. La base de una asociación o correlación observada entre entre dos eventos o variables no basta para deducir legítimamente una relación de causa y efecto.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

¿Qué es la paradoja de Simpson?

A

La paradoja de Simpson es un fenómeno en probabilidad y estadística en el que una tendencia aparece en varios grupos de datos pero desaparece o se invierte cuando los grupos se combinan.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

¿Cuáles son algunas distribuciones importantes?

A

Normal, poisson, exponencial, binomial, multinomial, ley de potencias.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

¿Qué es un modelo de regresión?

A

Es un modelo estadístico que estima la relación entre una variable dependiente y una o más variables independientes, generalmente para hacer predicciones o entender relaciones.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

¿Cuáles son los casos de usos de una regresión?

A
  • Predicción: Utilice el modelo ajustado para estimar el resultado y para un nuevo
    X no observado durante el ajuste del modelo
  • Análisis descriptivo: comparar resultados promedio entre
    subgrupos de datos
  • Modelado causal: comprender cómo cambia el resultado “y” cuando se manipulan los predictores “X”
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

¿Cuáles son los tipos principales de modelos de regresión?

A
  • Regresión lineal (simple y múltiple)
  • Regresión logística
  • Regresión polinómica
  • Regresión ridge y lasso (regularización)
  • Regresión no lineal
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

¿Cuál es la diferencia entre regresión lineal simple y múltiple?

A

Regresión lineal simple: Hay una sola variable predictora.
Y=β0+β1X
Regresión lineal múltiple: Hay más de una variable predictora.
Y=β0+β1X1+β2X2+…+βnn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

¿Qué significa el término “coeficiente de regresión”?

A

Es el valor que multiplica a cada variable independiente en la ecuación de regresión y representa cuánto cambia la variable dependiente cuando la independiente aumenta en una unidad.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

¿Cuáles son los supuestos de la regresión lineal?

A
  • Linealidad: La relación entre las variables es lineal.
  • Independencia de los errores: No hay correlación entre los errores.
  • Homoscedasticidad: La varianza de los errores no depende de los valores de las variables predictoras.
  • Normalidad de los errores: Los residuos deben seguir una distribución normal.
  • No multicolinealidad: No debe haber alta correlación entre variables predictoras en regresión múltiple.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

¿Qué representa el coeficiente R^2 en una regresión lineal?

A

Es el coeficiente de determinación, que indica qué porcentaje de la variabilidad de la variable dependiente es explicada por el modelo. Su valor oscila entre 0 y 1, donde 1 indica un ajuste perfecto.

28
Q

¿Qué es la regresión polinómica y en qué casos se usa?

A

Es un tipo de regresión donde se introducen términos polinomiales (X^2,X^3, etc.) para capturar relaciones no lineales entre variables. Se usa cuando una regresión lineal no es suficiente para describir la relación.

29
Q

¿En qué se diferencia la regresión logística de la regresión lineal?

A

La regresión logística se usa cuando la variable dependiente es categórica (por ejemplo, binaria: 0 o 1), mientras que la regresión lineal se usa para variables continuas.

30
Q

¿Cómo se interpreta el coeficiente en una regresión logística?

A

Cada coeficiente representa el logaritmo del cambio en la razón de probabilidades (odds ratio) cuando la variable independiente aumenta en una unidad.

31
Q

¿Cuáles son las métricas más utilizadas para evaluar modelos de regresión?

A
  • Error Cuadrático Medio (MSE)
  • Error Absoluto Medio (MAE)
  • Coeficiente de Determinación R^2
  • Raíz del Error Cuadrático Medio (RMSE)
32
Q

¿Qué indica un alto error cuadrático medio (MSE) en un modelo de regresión?

A

Que hay una gran diferencia entre los valores predichos y los valores reales, lo que indica un mal ajuste del modelo.

33
Q

¿Qué representa el p-value en un mdelo de regresión dado por un software (e.g. librería statsmodels de python)?

A

Indica la probabilidad de
estimar un coeficiente tan extremo si el coeficiente
verdadero fuera cero
(= hipótesis nula)

34
Q

¿Cuáles so los tipos de atributos (features)?

A
  • Continuo (e.g., altura, temperatura…)
  • Ordinal (e.g.., “de acuerdo”, “no me importa”, “en desacuerdo”…)
  • Categórico (e.g.., país, género…)
35
Q

¿Qué es feature engineering?

A

Es el proceso de seleccionar, manipular y transformar datos brutos en características que se puedan utilizar en el aprendizaje supervisado.

36
Q

¿Qué es el escalamiento de atributos (feature scaling)?

A

El escalamiento de atributos (feature scaling) es un método que se utiliza para normalizar el rango de variables independientes o características de los datos. En el procesamiento de datos, también se conoce como normalización de datos y generalmente se realiza durante el paso de preprocesamiento de datos.

37
Q

¿Qué es la discretización y para qué sirve?

A

La discretización es el proceso de transferir variables continuas a sus contrapartes discretas. Atributos discretos permiten que un clasificador lineal aprenda
límites de decisión no lineales.

38
Q

¿Cuáles son algunos métodos de discretización?

A
  • Ancho igual: dividir el rango en una cantidad predefinida de compartimentos (malo
    para datos sesgados, por ejemplo, de una ley de potencia)
  • Frecuencia igual: dividir el rango en una cantidad predefinida de compartimentos de modo que cada intervalo contenga la misma cantidad de valores
  • Clustering
39
Q

¿Qué es la normalización de atributos?

A

La normalización escala los valores de las características dentro de un rango predefinido, a menudo entre 0 y 1, lo que resulta particularmente útil para modelos en los que la escala de las características varía enormemente. Ejemplo:
○ Ingresos en CHF: 10 000 000
○ Número de empleados: 300

40
Q

¿Por qué es importante la normalización?

A

Los atributos con valores grandes dominan a las demás, y el clasificador tiende a optimizarlas en exceso.

41
Q

¿Cuáles son métodos para la normalización de atributos?

A
  • Escala logarítmica
  • Escala min-max
  • Estandarización
42
Q

¿Qué es la escala logarítmica?

A

La escala logarítmica es un método utilizado para mostrar datos numéricos que abarcan un amplio rango de valores, especialmente cuando existen diferencias significativas entre las magnitudes de los números involucrados. Es útil para características de cola pesada (por ejemplo, de leyes de potencia).
xi’ = log(xi)

43
Q

¿Cómo se aplica la escala min-max?

A

xi’ = (xi-mi)/(Mi-mi)
donde Mi y mi son los valores máximo y mínimo de la característica xi respectivamente. La nueva característica xi’ se encuentra en el intervalo [0,1].

44
Q

¿Cómo se aplica la estandarización?

A

xi’ = (xi – μi)/σi
donde μi es el valor medio de la característica xi y σi es la desviación estándar. La nueva característica xi’ tiene una media de 0 y una desviación estándar de 1.

45
Q

¿Cuáles son las operaciones básicas que se pueden realizar en un data frame?

A
  • Selección de filas y columnas
  • Filtrado de datos
  • Ordenamiento
  • Agregación
  • Fusión y combinación de data frames
46
Q

¿Cómo se pueden manejar valores nulos dentro de un data frame?

A
  • Eliminarlos
  • Reemplazarlos con un valor específico (como la media o mediana)
  • Usar interpolación para estimar valores faltantes
47
Q

¿Qué significa filtrar datos en un data frame?

A

Es seleccionar subconjuntos de datos basados en condiciones específicas, como valores de una columna o rangos numéricos.

48
Q

¿Cuál es la diferencia entre una función de agregación y una función de transformación en un data frame?

A
  • Agregación: Reduce los datos a un solo valor (ej. promedio, suma).
  • Transformación: Modifica los valores sin reducir la cantidad de datos (ej. normalización, escalado).
49
Q

¿Qué operaciones permiten combinar dos data frames?

A
  • Concatenación (unir filas o columnas)
  • Merge/Join (unión basada en claves comunes)
  • Intersection (filtrar datos comunes entre data frames)
50
Q

¿Cómo se pueden transformar datos categóricos en un data frame para su uso en modelos de machine learning?

A

Mediante técnicas como one-hot encoding, label encoding o asignación de valores numéricos a categorías.

51
Q

¿Qué significa agrupar datos en un data frame (groupby)?

A

Significa dividir los datos en subconjuntos basados en una o más columnas y aplicar funciones de agregación sobre ellos.

52
Q

¿Cuál es la diferencia entre clasificación supervisada y no supervisada?

A
  • Supervisada: Se utilizan etiquetas conocidas para entrenar el modelo.
  • No supervisada: Se identifican patrones sin etiquetas previas, como en el clustering.
53
Q

¿Cuáles son las métricas comunes para evaluar un modelo de clasificación?

A
  • Precisión
  • Recall
  • F1-score
  • Matriz de confusión
  • AUC-ROC
54
Q

¿Qué es un algoritmo de clustering y cómo se usa en clasificación de datos?

A

Es un algoritmo que agrupa datos en clústeres según su similitud. Se usa para segmentar clientes, agrupar documentos, detectar anomalías, etc.

55
Q

¿Cuáles son los principales algoritmos de clasificación utilizados en ciencia de datos?

A
  • Regresión logística
  • K-Nearest Neighbors (KNN)
  • Árboles de decisión
  • Random Forest
  • Redes neuronales
56
Q

¿Qué significa transformar datos en ciencia de datos?

A

Es modificar los datos para mejorar su calidad o facilitar el análisis, por ejemplo, aplicando escalado, codificación de categorías o reducción de dimensionalidad.

57
Q

¿Qué es el ruido en un conjunto de datos y cómo puede afectar el análisis?

A

El ruido son datos irrelevantes, incorrectos o inconsistentes que pueden sesgar resultados y reducir la precisión de los modelos.

58
Q

¿Por qué es importante la limpieza de datos antes de entrenar un modelo de machine learning?

A

Porque datos inconsistentes o incorrectos pueden causar resultados inexactos y afectar la capacidad del modelo para generalizar.

59
Q

¿Por qué se usa el muestreo en ciencia de datos?

A

Para reducir la cantidad de datos analizados sin perder representatividad, permitiendo un procesamiento más eficiente.

60
Q

¿Cuál es la diferencia entre muestreo aleatorio simple y muestreo estratificado?

A
  • Muestreo aleatorio simple: Cada observación tiene la misma probabilidad de ser seleccionada.
  • Muestreo estratificado: Se divide el conjunto en grupos y se extrae una muestra proporcional de cada uno.
61
Q

¿Cómo se puede reducir el sesgo en un muestreo de datos?

A
  • Usando muestreo aleatorio estratificado
  • Asegurando que la muestra represente adecuadamente la población
  • Aplicando pesos a las observaciones
62
Q

¿Por qué es importante la visualización de datos en ciencia de datos?

A

Porque facilita la comprensión de patrones, tendencias y relaciones en los datos, permitiendo tomar decisiones informadas de manera más rápida.

63
Q

¿Cuáles son los tipos principales de visualización de datos?

A
  • Gráficos de barras (comparación de categorías)
  • Histogramas (distribución de datos)
  • Diagramas de dispersión (relación entre variables)
  • Gráficos de líneas (tendencias en el tiempo)
  • Mapas de calor (correlaciones y matrices)
64
Q

¿Cuál es la diferencia entre un gráfico de barras y un histograma?

A
  • Gráfico de barras: Representa categorías discretas.
  • Histograma: Muestra la distribución de datos continuos agrupados en intervalos.
65
Q

¿Cómo elegir el tipo de gráfico adecuado para representar datos?

A

Depende de la naturaleza de los datos:
- Comparaciones → Barras o líneas
- Distribuciones → Histogramas o boxplots
- Relaciones → Dispersión o mapas de calor
- Series temporales → Gráficos de líneas

66
Q

¿Qué elementos clave debe incluir una buena visualización de datos?

A
  • Un título claro
  • Etiquetas en los ejes
  • Ejes consistentes
  • Leyenda explicativa
  • Colores adecuados (usar color-blind safe palettes) y consistentes
  • Contexto suficiente
  • Mostrar incertidumbre de datos
67
Q

¿Qué librerías en Python se utilizan para crear visualizaciones en ciencia de datos?

A

Matplotlib, Seaborn, Plotly, Folium