Aplicación de métodos multivariados en ciencia de datos Flashcards
Análisis de regresión, Análisis multivariado, Análisis de componentes principales (ACP), Regresión multivariada, Análisis discriminante, Análisis por conglomerados
¿Qué es la regresión lineal simple?
Es un modelo en el que se establece una relación lineal entre una variable dependiente Y y una variable independiente X
¿Cuál es la ecuación de la Regresión Lineal Simple?
- Y = b0 + b1 * X + e
Donde:
- Y es la variable dependiente.
- X es la variable independiente.
- b0 es la intersección o término independiente.
- b1 es la pendiente de la línea.
- e es el término de error.
¿Qué es la regresión lineal múltiple?
Es una extensión de la regresión lineal simple en la que se incluyen múltiples variables independientes, es decir: Y = b0 + b1 * X + b2 * X + b3 * X + … + e
¿Por qué es importante evitar la correlación entre variables independientes?
Porque si las variables independientes están correlacionadas, se genera multicolinealidad, lo que dificulta que el modelo determine el impacto real de cada variable en la variable dependiente.
¿Qué es la correlación de variables?
El coeficiente de correlación es la medida específica que cuantifica la intensidad de la relación lineal entre dos variables en un análisis de correlación.
¿Qué es el ANOVA en regresión y para qué se usa?
El Análisis de Varianza (ANOVA) en regresión se usa para analizar si existe una relación significativa entre las variables independientes y la variable dependiente.
¿Qué estadístico se calcula en el análisis ANOVA?
Con ANOVA se calcula el estadístico F, que mide si la regresión explica una proporción significativa de la variabilidad en los datos.
¿Cómo se interpreta el estadístico F en ANOVA para regresión?
- Si el valor del p-value es menor a 0.05, significa que al menos una de las variables independientes tiene un efecto significativo en la variable dependiente.
- Si el p-valor es mayor a 0.05, no hay evidencia suficiente para afirmar que la regresión es útil para predecir Y.
¿Cómo se utiliza ANOVA en ciencia de datos?
ANOVA se usa para identificar las características más relevantes para un modelo, eliminando variables innecesarias y reduciendo la complejidad del modelo.
¿Cuál es la diferencia entre hipótesis nula y alternativa?
La hipótesis nula (H₀) es la afirmación que se asume verdadera hasta que se demuestre lo contrario, mientras que la hipótesis alternativa (H₁) es la afirmación que queremos probar.
¿Qué representan los grados de libertad en un ANOVA?
Representan el número de valores independientes disponibles para estimar la varianza en los datos.
¿Qué es una prueba de hipótesis en estadística?
Es un procedimiento que permite tomar decisiones o inferencias sobre una población con base en una muestra de datos.
¿Qué significa un p-valor menor a 0.05 en una prueba de hipótesis?
Indica que hay suficiente evidencia estadística para rechazar la hipótesis nula con un nivel de confianza del 95%.
¿Qué diferencia hay entre una prueba de hipótesis unilateral y bilateral?
Una prueba unilateral evalúa si una media es mayor o menor que un valor específico, mientras que una prueba bilateral evalúa si una media es significativamente diferente en cualquier dirección.
¿Cuándo se usa una prueba de hipótesis con distribución Z y cuándo con distribución t?
Se usa Z cuando la muestra es grande (n > 30) y se conoce la desviación estándar poblacional, y t cuando la muestra es pequeña o la desviación estándar es desconocida.
¿Qué es una distribución multivariada?
Es una generalización de una distribución de probabilidad para más de una variable aleatoria.
¿Cómo se interpreta la matriz de covarianza en una distribución normal multivariada?
Indica cómo se dispersan las variables en conjunto y qué tan correlacionadas están.
¿Cómo se interpreta un valor alto en la matriz de covarianza?
Indica que dos variables varían conjuntamente de manera significativa.
¿Cuál es la diferencia entre matriz de covarianza y matriz de correlación?
La correlación normaliza la varianza, ya que el valor va a ser entre 0 y 1
¿Cómo ayuda la reducción de dimensionalidad en la visualización de datos multivariados?
Permite representar datos con muchas variables en un espacio de menor dimensión, facilitando la interpretación y visualización.
¿Por qué es importante analizar la simetría y la kurtosis en un conjunto de datos?
La simetría ayuda a identificar si la distribución de los datos es equilibrada lo que puede indicar la presencia de valores atípicos.
La kurtosis permite detectar la presencia de valores extremos.
¿Cuáles son algunas técnicas comunes para visualizar datos multivariados?
- Histogramas para saber si hay simetría en los datos
- Graficas de dispersión para ver cómo están relacionadas las variables, sobre todo si hay relación lineal
¿Qué representa el vector de medias en una distribución multivariada?
Contiene las medias de cada variable en la distribución.
¿Cuáles son las principales ventajas de la reducción de dimensionalidad en el análisis de datos?
Permite visualizar los datos en 2D o 3D, mejora la eficiencia computacional al reducir la cantidad de datos y minimiza el almacenamiento necesario.
¿En qué consiste el análisis PCA?
Encontrar las combinaciones lineales de las variables originales que capturan la mayor variabilidad posible en los datos, reduciendo la dimensionalidad conservando un alto porcentaje de sus características principales.
¿Cómo se seleccionan las componentes principales en un análisis de reducción de dimensión?
Se seleccionan en orden decreciente de importancia, priorizando las que capturan la mayor variabilidad de los datos.
¿Cuál es el objetivo principal del Modelo de Hotelling en la reducción de dimensionalidad?
Encontrar la combinación lineal de variables que maximiza la variabilidad en los datos.
¿Qué información proporciona un Scree Plot en el análisis de componentes principales?
Muestra los valores propios de cada componente y ayuda a decidir cuántas componentes utilizar en el análisis.
¿Qué información se puede obtener de un gráfico de influencias en el PCA?
Muestra qué variables tienen mayor efecto en cada componente, permitiendo identificar cuáles son las más relevantes en la reducción de dimensionalidad.
¿En qué situaciones es más adecuada la regresión logística en comparación con otros modelos de clasificación?
Se usa cuando la variable dependiente es categórica y la relación entre variables es aproximadamente lineal
¿Por qué la regresión logística no puede utilizarse directamente para predecir valores continuos?
Porque la función sigmoide restringe las predicciones a un rango entre 0 y 1, haciéndola adecuada solo para clasificación.
¿En qué consiste el análisis factorial y cómo se diferencia de la regresión?
El análisis factorial busca encontrar factores latentes a partir de variables observadas, mientras que la regresión busca modelar la relación entre una variable dependiente y variables independientes.
¿Cómo se puede utilizar el análisis factorial en conjunto con la regresión?
Se pueden extraer factores significativos y usarlos como variables independientes en un modelo de regresión para reducir la dimensionalidad y mejorar la interpretación.
¿Qué es el análisis discriminante?
Es un grupo de técnicas funcionales usadas para encontrar la combinación lineal de las variables independientes que permita diferenciar de la mejor manera los grupos o variables que una variable dependiente tiene.
Y = f (X_1, X_2, …, X_m)
Es decir, es un problema de clasificación donde dos o más grupos se conocen a priori y una o más observaciones nuevas se clasifican en una de las poblaciones conocidas en función de las características medidas.
¿Cuáles son los pasos para realizar el análisis discriminante?
- Seleccionar las variables independientes y la variable dependiente
- Seleccionar el tamaño de la muestra
- Dividir la muestra
- Obtener las constantes del modelo
- Probar el modelo
- Evaluar la contribución de las variables
- Valor de la forma predictiva del modelo
- Interpretar los resultados del modelo
Deben de existir al menos 2 grupos en la variable dependiente.
Los grupos deben ser mutuamente excluyentes
¿Cuál es la diferencia entre el análisis discriminante simple y el múltiple?
El simple clasifica en dos grupos, y el múltiple clasifica en más de dos grupos.
¿Qué se evalúa con la lambda de Wilks en el análisis discriminante?
Cuán separados están los grupos; valores cercanos a 0 indican buena discriminación.
¿Qué representa la función discriminante de Fisher
Z = K_1X_1 + K_2X_2 + … + K_mX_m?
Es una ecuación lineal que combina variables para clasificar observaciones en grupos, donde Ki es el factor de ponderación y Xi son las variables independientes
¿Qué es el análisis de conglomerados?
Es una técnica estadística para agrupar objetos en grupos similares con base en sus características.
¿Cuáles son los pasos clave en un análisis de conglomerados?
- Formular el problema
- Seleccionar las variables
- Definir una medida de proximidad
- Elegir el método de agrupación
- Determinar el número de grupos
- Analizar e interpretar los resultados
- Nombrar cada grupo o conglomerado
- Evaluar las variables originales y encontrar si en realidad se tienen grupos diferenciados.
¿Qué mide la similitud y disimilaridad en el análisis de conglomerados?
La similitud o semejanza indica qué tan parecidos son los objetos, y la disimilaridad mide sus diferencias.
Cuanto más pequeño es el valor de una medida de disimilaridad, más parecidos son dos objetos.
Cuanto más grande es el valor de una medida de similaridad, más parecidos son.
Análisis de conglomerados, métodos de agrupación
¿Cuál es la diferencia entre métodos jerárquicos y no jerárquicos?
Jerárquico: Se agrupan elementos de forma ordenada, de lo más parecido a lo menos (jerárquico aglomerativo y jerárquico divisional).
No jerárquico: Se agrupan arbitrariamente.
Análisis de conglomerados, métodos jerárquicos
¿Cuál es la diferencia entre los métodos jerárquico aglomerativo y el jerárquico divisional?
Jerárquico aglomerativo: Supone que cada elemento constituye un grupo, y después se van uniendo (dependiendo de que tan parecidos son) hasta crear un solo grupo.
Jerárquico divisional: Supone que todos los elementos estan en un grupo, y después (dependiendo las diferencias) se separan hasta que haya tantos grupos como elementos.
Análisis de conglomerados
¿Qué es el criterio de eslabonamiento en los métodos jerárquicos?
Es la forma en que se evalúa la distancia entre grupos, puede ser:
* Distancia mínima: Vecino más cercano
* Distancia máxima: Vecino más lejano
* Promedio entre grupos: Media de las distancias
¿Qué representa un dendograma en análisis de conglomerados?
Un diagrama que muestra el proceso de agrupación jerárquica de los elementos.