Análisis de ciencia de datos Flashcards

Question 1

Q

¿Qué es el análisis de datos descriptivo?

Answer

A

Ahonda en los datos pasados para averiguar información sobre lo acontecido en el histórico. Responde: “¿Qué ha pasado?”.

Question 2

Q

¿Qué es el análisis de datos predictivo?

Answer

A

Utilizan estadísticas y técnicas de modelado para hacer predicciones sobre resultados y rendimiento futuros. Examina los patrones de datos actuales e históricos para determinar si es probable que esos patrones vuelvan a surgir. Responde: “¿Qué va a pasar?”.

Question 3

Q

¿Qué es el análisis de datos prescriptivo?

Answer

A

Toma en cuenta la información sobre posibles situaciones o escenarios, los recursos disponibles, el rendimiento pasado y el rendimiento actual, y sugiere una estrategia operativa. Responde: “¿Cuál es la mejor estrategia a seguir?”.

Question 4

Q

¿Qué es un DataFrame en pandas?

Answer

A

Una estructura de datos bidimensional, similar a una tabla, con etiquetas de filas y columnas.

Question 5

Q

¿Qué librerías en Python se utilizan para la adquisición de datos?

Answer

A

pandas (CSV, Excel, JSON, SQL), requests (APIs), BeautifulSoup y Scrapy (scraping web).

Question 6

Q

¿Qué es un data model?

Answer

A

Un data model especifica como piensas el mundo.

Question 7

Q

¿Cuáles son los tipos de modelo?

Answer

A

Plano, relacional, documento, red.

Question 8

Q

¿Qué es un modelo plano?

Answer

A

Un modelo simple en donde hay un tipo de entidad y todas tienen el mismo atributo. Ejemplo: log files, cdv

Question 9

Q

¿Qué es un modelo relacional?

Answer

A

Un modelo con mucha entidades que están conectadas por relaciones. Ejemplo: SQL

Question 10

Q

¿Qué es un modelo documento?

Answer

A

Un modelo donde hay jerarquía de entidades. Ejemplo: XML, JSON

Question 11

Q

¿Qué es un modelo red?

Answer

A

Un modelo red compleja de entidades. Ejemplo: amigos en Facebook.

Question 12

Q

¿Para qué sirve la transformación de datos? (Data wrangling)

Answer

A

Tiene como objetivo extraer y estnadarizar raw data. Combinar multiples fuentes y limpiar anomalías.

Question 13

Q

¿Qué tipos de problemas de datos podemos enfrentar?

Answer

A

Valores faltantes, incorrectos, inconsistencia en la representación.

Question 14

Q

¿Cómo podemos identificar outliers?

Answer

A

Con una visualización de la distribución de valores de una variable.

Question 15

Q

¿Cuál es una técnica de reducción de dimensionalidad?

Answer

A

Principal Component Analysis (PCA). Reduce el número de dimensiones en grandes conjuntos de datos a componentes principales que conservan la mayor parte de la información original.

Question 16

Q

¿Qué es la correlación?

Answer

A

La correlación indica la fuerza y la dirección de una relación lineal y la proporcionalidad entre dos variables estadísticas.

Question 17

Q

¿Qué es el coeficiente de correlación de Pearson?

Answer

A

Es un coeficiente de correlación que mide la correlación lineal entre dos conjuntos de datos.

Question 18

Q

Verdadero o falso: correlación implica causalidad.

Answer

A

Falso. La base de una asociación o correlación observada entre entre dos eventos o variables no basta para deducir legítimamente una relación de causa y efecto.

Question 19

Q

¿Qué es la paradoja de Simpson?

Answer

A

La paradoja de Simpson es un fenómeno en probabilidad y estadística en el que una tendencia aparece en varios grupos de datos pero desaparece o se invierte cuando los grupos se combinan.

Question 20

Q

¿Cuáles son algunas distribuciones importantes?

Answer

A

Normal, poisson, exponencial, binomial, multinomial, ley de potencias.

Question 21

Q

¿Qué es un modelo de regresión?

Answer

A

Es un modelo estadístico que estima la relación entre una variable dependiente y una o más variables independientes, generalmente para hacer predicciones o entender relaciones.

Question 22

Q

¿Cuáles son los casos de usos de una regresión?

Answer

A

Predicción: Utilice el modelo ajustado para estimar el resultado y para un nuevo
X no observado durante el ajuste del modelo
Análisis descriptivo: comparar resultados promedio entre
subgrupos de datos
Modelado causal: comprender cómo cambia el resultado “y” cuando se manipulan los predictores “X”

Question 23

Q

¿Cuáles son los tipos principales de modelos de regresión?

Answer

A

Regresión lineal (simple y múltiple)
Regresión logística
Regresión polinómica
Regresión ridge y lasso (regularización)
Regresión no lineal

Question 24

Q

¿Cuál es la diferencia entre regresión lineal simple y múltiple?

Answer

A

Regresión lineal simple: Hay una sola variable predictora.
Y=β0+β1X
Regresión lineal múltiple: Hay más de una variable predictora.
Y=β0+β1X1+β2X2+…+βnn

Question 25

Q

¿Qué significa el término “coeficiente de regresión”?

Answer

A

Es el valor que multiplica a cada variable independiente en la ecuación de regresión y representa cuánto cambia la variable dependiente cuando la independiente aumenta en una unidad.

Question 26

Q

¿Cuáles son los supuestos de la regresión lineal?

Answer

A

Linealidad: La relación entre las variables es lineal.
Independencia de los errores: No hay correlación entre los errores.
Homoscedasticidad: La varianza de los errores no depende de los valores de las variables predictoras.
Normalidad de los errores: Los residuos deben seguir una distribución normal.
No multicolinealidad: No debe haber alta correlación entre variables predictoras en regresión múltiple.

Question 27

Q

¿Qué representa el coeficiente R^2 en una regresión lineal?

Answer

A

Es el coeficiente de determinación, que indica qué porcentaje de la variabilidad de la variable dependiente es explicada por el modelo. Su valor oscila entre 0 y 1, donde 1 indica un ajuste perfecto.

Question 28

Q

¿Qué es la regresión polinómica y en qué casos se usa?

Answer

A

Es un tipo de regresión donde se introducen términos polinomiales (X^2,X^3, etc.) para capturar relaciones no lineales entre variables. Se usa cuando una regresión lineal no es suficiente para describir la relación.

Question 29

Q

¿En qué se diferencia la regresión logística de la regresión lineal?

Answer

A

La regresión logística se usa cuando la variable dependiente es categórica (por ejemplo, binaria: 0 o 1), mientras que la regresión lineal se usa para variables continuas.

Question 30

Q

¿Cómo se interpreta el coeficiente en una regresión logística?

Answer

A

Cada coeficiente representa el logaritmo del cambio en la razón de probabilidades (odds ratio) cuando la variable independiente aumenta en una unidad.

Question 31

Q

¿Cuáles son las métricas más utilizadas para evaluar modelos de regresión?

Answer

A

Error Cuadrático Medio (MSE)
Error Absoluto Medio (MAE)
Coeficiente de Determinación R^2
Raíz del Error Cuadrático Medio (RMSE)

Question 32

Q

¿Qué indica un alto error cuadrático medio (MSE) en un modelo de regresión?

Answer

A

Que hay una gran diferencia entre los valores predichos y los valores reales, lo que indica un mal ajuste del modelo.

Question 33

Q

¿Qué representa el p-value en un mdelo de regresión dado por un software (e.g. librería statsmodels de python)?

Answer

A

Indica la probabilidad de
estimar un coeficiente tan extremo si el coeficiente
verdadero fuera cero
(= hipótesis nula)

Question 34

Q

¿Cuáles so los tipos de atributos (features)?

Answer

A

Continuo (e.g., altura, temperatura…)
Ordinal (e.g.., “de acuerdo”, “no me importa”, “en desacuerdo”…)
Categórico (e.g.., país, género…)

Question 35

Q

¿Qué es feature engineering?

Answer

A

Es el proceso de seleccionar, manipular y transformar datos brutos en características que se puedan utilizar en el aprendizaje supervisado.

Question 36

Q

¿Qué es el escalamiento de atributos (feature scaling)?

Answer

A

El escalamiento de atributos (feature scaling) es un método que se utiliza para normalizar el rango de variables independientes o características de los datos. En el procesamiento de datos, también se conoce como normalización de datos y generalmente se realiza durante el paso de preprocesamiento de datos.

Question 37

Q

¿Qué es la discretización y para qué sirve?

Answer

A

La discretización es el proceso de transferir variables continuas a sus contrapartes discretas. Atributos discretos permiten que un clasificador lineal aprenda
límites de decisión no lineales.

Question 38

Q

¿Cuáles son algunos métodos de discretización?

Answer

A

Ancho igual: dividir el rango en una cantidad predefinida de compartimentos (malo
para datos sesgados, por ejemplo, de una ley de potencia)
Frecuencia igual: dividir el rango en una cantidad predefinida de compartimentos de modo que cada intervalo contenga la misma cantidad de valores
Clustering

Question 39

Q

¿Qué es la normalización de atributos?

Answer

A

La normalización escala los valores de las características dentro de un rango predefinido, a menudo entre 0 y 1, lo que resulta particularmente útil para modelos en los que la escala de las características varía enormemente. Ejemplo:
○ Ingresos en CHF: 10 000 000
○ Número de empleados: 300

Question 40

Q

¿Por qué es importante la normalización?

Answer

A

Los atributos con valores grandes dominan a las demás, y el clasificador tiende a optimizarlas en exceso.

Question 41

Q

¿Cuáles son métodos para la normalización de atributos?

Answer

A

Escala logarítmica
Escala min-max
Estandarización

Question 42

Q

¿Qué es la escala logarítmica?

Answer

A

La escala logarítmica es un método utilizado para mostrar datos numéricos que abarcan un amplio rango de valores, especialmente cuando existen diferencias significativas entre las magnitudes de los números involucrados. Es útil para características de cola pesada (por ejemplo, de leyes de potencia).
xi’ = log(xi)

Question 43

Q

¿Cómo se aplica la escala min-max?

Answer

A

xi’ = (xi-mi)/(Mi-mi)
donde Mi y mi son los valores máximo y mínimo de la característica xi respectivamente. La nueva característica xi’ se encuentra en el intervalo [0,1].

Question 44

Q

¿Cómo se aplica la estandarización?

Answer

A

xi’ = (xi – μi)/σi
donde μi es el valor medio de la característica xi y σi es la desviación estándar. La nueva característica xi’ tiene una media de 0 y una desviación estándar de 1.

Question 45

Q

¿Cuáles son las operaciones básicas que se pueden realizar en un data frame?

Answer

A

Selección de filas y columnas
Filtrado de datos
Ordenamiento
Agregación
Fusión y combinación de data frames

Question 46

Q

¿Cómo se pueden manejar valores nulos dentro de un data frame?

Answer

A

Eliminarlos
Reemplazarlos con un valor específico (como la media o mediana)
Usar interpolación para estimar valores faltantes

Question 47

Q

¿Qué significa filtrar datos en un data frame?

Answer

A

Es seleccionar subconjuntos de datos basados en condiciones específicas, como valores de una columna o rangos numéricos.

Question 48

Q

¿Cuál es la diferencia entre una función de agregación y una función de transformación en un data frame?

Answer

A

Agregación: Reduce los datos a un solo valor (ej. promedio, suma).
Transformación: Modifica los valores sin reducir la cantidad de datos (ej. normalización, escalado).

Question 49

Q

¿Qué operaciones permiten combinar dos data frames?

Answer

A

Concatenación (unir filas o columnas)
Merge/Join (unión basada en claves comunes)
Intersection (filtrar datos comunes entre data frames)

Question 50

Q

¿Cómo se pueden transformar datos categóricos en un data frame para su uso en modelos de machine learning?

Answer

A

Mediante técnicas como one-hot encoding, label encoding o asignación de valores numéricos a categorías.

Question 51

Q

¿Qué significa agrupar datos en un data frame (groupby)?

Answer

A

Significa dividir los datos en subconjuntos basados en una o más columnas y aplicar funciones de agregación sobre ellos.

Question 52

Q

¿Cuál es la diferencia entre clasificación supervisada y no supervisada?

Answer

A

Supervisada: Se utilizan etiquetas conocidas para entrenar el modelo.
No supervisada: Se identifican patrones sin etiquetas previas, como en el clustering.

Question 53

Q

¿Cuáles son las métricas comunes para evaluar un modelo de clasificación?

Answer

A

Precisión
Recall
F1-score
Matriz de confusión
AUC-ROC

Question 54

Q

¿Qué es un algoritmo de clustering y cómo se usa en clasificación de datos?

Answer

A

Es un algoritmo que agrupa datos en clústeres según su similitud. Se usa para segmentar clientes, agrupar documentos, detectar anomalías, etc.

Question 55

Q

¿Cuáles son los principales algoritmos de clasificación utilizados en ciencia de datos?

Answer

A

Regresión logística
K-Nearest Neighbors (KNN)
Árboles de decisión
Random Forest
Redes neuronales

Question 56

Q

¿Qué significa transformar datos en ciencia de datos?

Answer

A

Es modificar los datos para mejorar su calidad o facilitar el análisis, por ejemplo, aplicando escalado, codificación de categorías o reducción de dimensionalidad.

Question 57

Q

¿Qué es el ruido en un conjunto de datos y cómo puede afectar el análisis?

Answer

A

El ruido son datos irrelevantes, incorrectos o inconsistentes que pueden sesgar resultados y reducir la precisión de los modelos.

Question 58

Q

¿Por qué es importante la limpieza de datos antes de entrenar un modelo de machine learning?

Answer

A

Porque datos inconsistentes o incorrectos pueden causar resultados inexactos y afectar la capacidad del modelo para generalizar.

Question 59

Q

¿Por qué se usa el muestreo en ciencia de datos?

Answer

A

Para reducir la cantidad de datos analizados sin perder representatividad, permitiendo un procesamiento más eficiente.

Question 60

Q

¿Cuál es la diferencia entre muestreo aleatorio simple y muestreo estratificado?

Answer

A

Muestreo aleatorio simple: Cada observación tiene la misma probabilidad de ser seleccionada.
Muestreo estratificado: Se divide el conjunto en grupos y se extrae una muestra proporcional de cada uno.

Question 61

Q

¿Cómo se puede reducir el sesgo en un muestreo de datos?

Answer

A

Usando muestreo aleatorio estratificado
Asegurando que la muestra represente adecuadamente la población
Aplicando pesos a las observaciones

Question 62

Q

¿Por qué es importante la visualización de datos en ciencia de datos?

Answer

A

Porque facilita la comprensión de patrones, tendencias y relaciones en los datos, permitiendo tomar decisiones informadas de manera más rápida.

Question 63

Q

¿Cuáles son los tipos principales de visualización de datos?

Answer

A

Gráficos de barras (comparación de categorías)
Histogramas (distribución de datos)
Diagramas de dispersión (relación entre variables)
Gráficos de líneas (tendencias en el tiempo)
Mapas de calor (correlaciones y matrices)

Question 64

Q

¿Cuál es la diferencia entre un gráfico de barras y un histograma?

Answer

A

Gráfico de barras: Representa categorías discretas.
Histograma: Muestra la distribución de datos continuos agrupados en intervalos.

Answer 65

A

Depende de la naturaleza de los datos:
- Comparaciones → Barras o líneas
- Distribuciones → Histogramas o boxplots
- Relaciones → Dispersión o mapas de calor
- Series temporales → Gráficos de líneas

Answer 66

A

Un título claro
Etiquetas en los ejes
Ejes consistentes
Leyenda explicativa
Colores adecuados (usar color-blind safe palettes) y consistentes
Contexto suficiente
Mostrar incertidumbre de datos

Answer 67

A

Matplotlib, Seaborn, Plotly, Folium

Análisis de ciencia de datos Flashcards

Introducción a la ciencia de datos, Adquisición y preparación de datos, Modelación y visualización