Regresión simple Flashcards
¿Qué representa b0 en el modelo de regresión lineal?
La intersección en el eje y
qué es lo que se realiza en un ANOVA en la regresión simple?
descomponer la variabilidad total (SST) en dos componentes principales:
Variabilidad explicada por el modelo (SSR): Es la parte de la variabilidad de y que se explica por la variable independiente x.
Variabilidad no explicada (SSE): Es la variabilidad que queda en los residuos.
para que se realiza un anova en la regresión simple?
El ANOVA evalúa si la relación entre x y y es significativa mediante una prueba F. Si el valor p de esta prueba es pequeño (<0.05), se concluye que x tiene un efecto significativo sobre y.
en la regresión simple, r^2 y R^2? es lo mismo?
En regresión lineal simple, solo hay una variable independiente (x).
El coeficiente de correlación (r) mide la fuerza y dirección de la relación lineal entre x y y. R^2 mide la proporción de variabilidad en y explicada por x. Como en regresión simple R^2=r^2, ambos conceptos coinciden numéricamente.
como se calcula r^2 en regresión simple
SSR/SST (variabilidad del modelo/ variabilidad total) ó 1 - (SSE/SST) (variabilidad no explicada por el modelo/varibilidad total)
si solo hay una variable en regresión simple, porque se ajusta la r^2
el ajuste tiene en cuenta el tamaño de la muestra (n) y el número de predictores (k=1).
1 - ((1- r^2)(n-1)/(n-2))
Diferencia entre nivel de significancia y nivel de confianza
significancia (alpha): error en rechazar la hipótesis nula cuando es verdadera.
confianza (1-alpha): porcentaje de certeza de que el parámetro poblacional (como la media) está dentro del intervalo de confianza calculado.
diferencia de un anova de regresion simple a uno de regresion múltiple
el ANOVA sigue el mismo principio, pero con solo una variable independiente. Solo cambia los grados de libertad, ya que en la regresión simple es uno solamente
Datos muestrales
(x testada (media), s (desviación estándar), s^2 (varianza), n (tamaño de la muestra)
Datos poblacionales
μ (miu, media), σ (sigma, desviacion estandar), σ^2 (sigma cuadrada, varianza), N (tamaño de la pobalción)
Elementos de la ecuación regresión simple
b1 (Coeficiente estimado muestral) impacto promedio de una unidad de cambio en x sobre y en los datos de la muestra (taza de cambio).
b0 (Intersección estimada muestral)
valor estimado del intercepto en la ecuación.
beta 1 (Coeficiente real poblacional)
Representan los verdaderos coeficientes que describen la relación entre x e y en toda la población.
Beta 0 (Intersección real poblacional)
valor verdadero del intercepto en la ecuación teórica de la población
cuando INV.T y cuando uso DIST
T.DIST:2C (como te pide un x (t), te da una probabilidad, aparte de que sus valores están entre 0-1) a mayor x menos grados, mejor valor
T.INV (te pide una probabilidad, por ejemplo, p-value o alpha)
que es ϵ
el error aleatorio o residuo.
(Solo en la poblacional), en la muestra se vuelve el error no explicado SSE (valor real vs. el predicho).
por que lo valores críticos piden una probabilidad
el valor critico toma como supuesto el valor de significancia
Para que se usa la prueba t
Determinar si un coeficiente de regresión es significativo.
Evaluar si una variable independiente tiene un efecto importante sobre la variable dependiente.
(Facilitar decisiones sobre qué variables incluir en un modelo).
Como se usa la prueba t
Determina el nivel de significancia y gl, calcula el valor crítico de t INV.T.2C(α ,gradosdelibertad) y compara el estadístico (Coeficiente b/Error estándar del coeficiente) con el critico
¿Cuál es la hipótesis nula (H0) en un modelo lineal?
Que el coeficiente de regresión (β) es igual a cero (β=0), lo que significa que la variable independiente no tiene un efecto significativo en y.
¿Cuál es la hipótesis alternativa (Ha) en un modelo lineal?
Que el coeficiente de regresión (β) es diferente de cero (β=0), lo que significa que la variable independiente tiene un efecto significativo en y.
¿Qué significa rechazar la hipótesis nula en un modelo lineal?
Significa que hay suficiente evidencia estadística para concluir que la variable independiente tiene un efecto significativo sobre y.
¿Qué significa no rechazar la hipótesis nula en un modelo lineal?
Significa que no hay suficiente evidencia estadística para concluir que la variable independiente afecta
y, aunque esto no prueba que β=0.
¿Qué se evalúa con el valor p en la prueba de hipótesis para un coeficiente?
Evalúa la probabilidad de observar un coeficiente tan extremo como el estimado, si la hipótesis nula (β=0) fuera verdadera.
¿Cómo se relaciona el estadístico t con la hipótesis nula en un modelo lineal?
El estadístico t mide cuántas desviaciones estándar está el coeficiente estimado (b) de cero. Un valor t grande (positivo o negativo) sugiere que el coeficiente es significativo.
¿Cómo se relacionan las hipótesis con el análisis F en el modelo lineal?
El análisis F prueba si el conjunto de predictores, en conjunto, explica significativamente la variabilidad en y.
region de rechazo en la H0
definida por el investigador o analista mediante la elección de un nivel de significancia (α) antes de realizar la prueba estadística.
estimación puntual
estimación que implica calcular un solo valor del parámetro para aproximar un parámetro desconocido de la población, como la media (μ) o un coeficiente de regresión (β).
estimación por intervalo
tipo de estimación que calcula un rango de valores dentro del cual se espera que se encuentre el parámetro desconocido de la población, con un nivel de confianza específico (por ejemplo, 95%).
¿Qué suposición verifica un gráfico de residuos vs. predicciones?
Verifica la homocedasticidad y la linealidad de la relación entre las variables.
¿Qué significa si los residuos en un gráfico de probabilidad normal no se alinean con la línea?
Indica que los residuos no siguen una distribución normal.
¿Cómo se relaciona el valor p con la prueba de hipótesis en regresión?
Si p<α, rechazamos H0, concluyendo que el coeficiente es significativo.
¿Qué es la regresión lineal multiple y cuál es su propósito principal?
La regresión lineal múltiple utiliza más de una variable independiente para predecir una variable dependiente, mientras que la simple solo utiliza una;
Enumere y describa los supuestos fundamentales de la regresión lineal múltiple.
Relación lineal, independencia de los errores, normalidad de los errores, homocedasticidad, y no colinealidad.
¿Por qué es importante verificar la normalidad de los residuos en un modelo de regresión?
¿Qué significa que dos variables independientes sean colineales?
Que están altamente correlacionadas entre sí, lo que puede afectar la interpretación de los coeficientes.
¿Cómo puedes detectar la multicolinealidad en un modelo de regresión lineal múltiple?
Utilizando factores de inflación de la varianza (VIF) o examinando las correlaciones entre las variables independientes.
¿Qué indica un valor alto del estadístico F en un análisis ANOVA de regresión múltiple?
Que el modelo en su conjunto es estadísticamente significativo.
¿Qué herramienta gráfica se utiliza para evaluar la normalidad de los residuos?
El gráfico de probabilidad normal de los residuos.
¿Qué pasos se deben seguir para construir un modelo de regresión lineal múltiple en Excel o Minitab?
Ingresar los datos, ajustar el modelo, revisar R^2 y R^2 ajustado, realizar pruebas de hipótesis para los coeficientes y validar los supuestos.
¿Cómo puedes evaluar el impacto de una variable independiente en el modelo?
Analizando el coeficiente de la variable y su valor p.
¿Qué cambios se deben hacer en el modelo si se detecta multicolinealidad?
Eliminar una de las variables colineales, combinar variables.
¿Cómo afecta la multicolinealidad a los coeficientes de regresión?
Los hace inestables y difíciles de interpretar, ya que las variables independientes están correlacionadas.
¿Qué información proporciona un gráfico de residuos vs. predicciones ajustadas?
Ayuda a detectar patrones en los errores, indicando si se cumplen los supuestos de linealidad y homocedasticidad.
¿Qué significa si los residuos no tienen una varianza constante (heterocedasticidad)?
Que el modelo no es adecuado, ya que la variabilidad de los errores cambia con las predicciones.
¿Qué sucede si eliminas una observación que parece un outlier en el modelo?
Puede cambiar los coeficientes de regresión y la significancia estadística, por lo que es necesario analizar el impacto.
¿Qué ventaja tiene transformar una variable en un modelo de regresión múltiple?
Puede mejorar la linealidad, reducir la heterocedasticidad o hacer que los resultados sean más interpretables.
que es supervised learning
base de datos que tiene una columna que describe que es ese dato (label)
que es unsupervised learning
base de no cuenta con esta columna
que pasa con las bases de datos “unsupervised learning”
se convierte en un problema exploratorio y se usa la técnica de clustering
las bases de datos que tienen label (supervised), en que problemas de pueden dividir?
regresión lineal (predecir un número) y clasificación (predecir solo con algunas clasificaciones)
cual algoritmo se usa normalmente para resolver supervised learning
Logistic Regression
que es la regresión logistica binaria
Es un modelo utilizado para predecir una variable dependiente categórica binaria (dos posibles resultados, como 0 y 1) a partir de variables independientes.
que mide la regresion logistica
la probabilidad de que un evento pase o no, en base a la medida de relación entre la variable dependiente categórica, y las variables independientes
que obtienes como resultado cuando usas regresion para resolver un modelo binario
se construye la linea con el best fitófaga, los datos a la izquierda es la clase negativa y a la derecha
cual es la formula de función logística
L (valor máximo de la curva)/ (1+ e^-k(pendiente de la curva) * (x-x0))
de donde sale la formula de regresión logística
es un caso especial de la función logística que se llama funcion sigmoid, se usa para casos binarios ya que la L es uno
cual es la formula de regresión logística
P (y=1)= 1/(1+e^-(b0+b1,b2,…) (la que vamos a usar)
¿Cuál es la principal diferencia entre la regresión logística y la regresión lineal?
La regresión logística predice probabilidades y utiliza una función sigmoide para modelar relaciones no lineales, mientras que la regresión lineal predice valores continuos.
cual es el procedimiento para hacer una regresión binaria
Calcular estadísticas descriptivas:(promedios, desviaciones estándar y análisis gráfico) con data análisis en excel para explorar las relaciones entre las variables independientes y la dependiente binaria.
hacer en Minitab, la ec, los coeficientes, sus errores, p y z valúes, vif; calcula las predicciones con la ec y usar la formula de p(1) con y^
Validar y evaluar el model con los valores p de cada coeficiente (p<0.05) y la R^2
optimizar el modelo, volver a predecir, gráficar hacer matriz de confusión y sacar la exactitud (sumar la cantidad de valores p(19 y dividirlo entre la suma de toda la matriz)
supuesto del modelo de regresion lineal que se puede verificar al realizar una grafica de los residuos, en el orden que fueron recolectados los datos
independencia
que tipo de algoritmo es una regresión logística binaria
Algoritmo de aprendizaje supervisado
un intervalo de prediccion evalua la variabilidad de los coeficientes estimados b0 y b1
falso
el coeficiente de determinacion aumenta con el numero de variables. es mejor utilizar el coeficiente de determinacion ajustado, para tener en cuenta el numero de variables en el modelo
verdadero
supuesto del modelo de regresion lineal que se pude verificar al calcular las correlaciones entre las variables independientes
no colinealidad
supuesto del modelo de regresion lineal que se pude verificar al realizar una prueba de Durbin Watson de los residuos
independencia
supuesto del modelo de regresion lineal llamado tambien homocedasticidad
varianza igual
beta 0 del modelo de regresion mide el valor medio de la respuesta cuando la variable predictora es 0, (si el modelo sigue siendo un buen ajuste, cuando x=0
verdadero
al ajustar un modelo de regresion, se aborda un problema de linealidad, transformando la respuesta. por ejemplo, utilizando al transformacion boxcox
verdadero
un intervalo de confianza proporciona limites de referencia de la variacion esperada de individuos alrededor de un valor previsto
falso
El 1−α×100 en un ANOVA representa
el nivel de confianza
supuesto del modelo de regresion que estipula que la dispersión de los puntos definidos por los datos alrededor de la recta debe ser constante
varianza igual
en modelos de regresión lineal simple el coeficiente beta1 representa el cambio en la respuesta media por una unidad de cambio en la variable predictoria
verdadero
supuesto del modelo de regresion lineal que se puede verificar al calcular el factor de inflación de varianza para cada variables independiente
no colinealidad
el coeficiente de determinación (R^2) mide la proporción de variabilidad total (suma total de cuadrados) que explica el modelo
verdadero
supuesto del modelo de regresion lineal que se puede verificar al revisar con el gráfico de probabilidad de los residuos
normalidad
cuando la kurtosis de un grupo de datos es mayor que cero entonces tiene un histograma ….
leptocúrtica
supuesto del modelo de regresion lineal que se puede verificar al revisar la forma del histograma de los residuos
normalidad
supuesto del modelo de regresion lineal que estipula que la relación entre la variables dependiente y l independiente se puede representar mediante una recta
Linealidad