Regresión simple Flashcards

1
Q

¿Qué representa b0 en el modelo de regresión lineal?

A

La intersección en el eje y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

qué es lo que se realiza en un ANOVA en la regresión simple?

A

descomponer la variabilidad total (SST) en dos componentes principales:

Variabilidad explicada por el modelo (SSR): Es la parte de la variabilidad de y que se explica por la variable independiente x.

Variabilidad no explicada (SSE): Es la variabilidad que queda en los residuos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

para que se realiza un anova en la regresión simple?

A

El ANOVA evalúa si la relación entre x y y es significativa mediante una prueba F. Si el valor p de esta prueba es pequeño (<0.05), se concluye que x tiene un efecto significativo sobre y.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

en la regresión simple, r^2 y R^2? es lo mismo?

A

En regresión lineal simple, solo hay una variable independiente (x).
El coeficiente de correlación (r) mide la fuerza y dirección de la relación lineal entre x y y. R^2 mide la proporción de variabilidad en y explicada por x. Como en regresión simple R^2=r^2, ambos conceptos coinciden numéricamente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

como se calcula r^2 en regresión simple

A

SSR/SST (variabilidad del modelo/ variabilidad total) ó 1 - (SSE/SST) (variabilidad no explicada por el modelo/varibilidad total)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

si solo hay una variable en regresión simple, porque se ajusta la r^2

A

el ajuste tiene en cuenta el tamaño de la muestra (n) y el número de predictores (k=1).
1 - ((1- r^2)(n-1)/(n-2))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Diferencia entre nivel de significancia y nivel de confianza

A

significancia (alpha): error en rechazar la hipótesis nula cuando es verdadera.

confianza (1-alpha): porcentaje de certeza de que el parámetro poblacional (como la media) está dentro del intervalo de confianza calculado.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

diferencia de un anova de regresion simple a uno de regresion múltiple

A

el ANOVA sigue el mismo principio, pero con solo una variable independiente. Solo cambia los grados de libertad, ya que en la regresión simple es uno solamente

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Datos muestrales

A

(x testada (media), s (desviación estándar), s^2 (varianza), n (tamaño de la muestra)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Datos poblacionales

A

μ (miu, media), σ (sigma, desviacion estandar), σ^2 (sigma cuadrada, varianza), N (tamaño de la pobalción)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Elementos de la ecuación regresión simple

A

b1 (Coeficiente estimado muestral) impacto promedio de una unidad de cambio en x sobre y en los datos de la muestra (taza de cambio).
b0 (Intersección estimada muestral)
valor estimado del intercepto en la ecuación.
beta 1 (Coeficiente real poblacional)
Representan los verdaderos coeficientes que describen la relación entre x e y en toda la población.
Beta 0 (Intersección real poblacional)
valor verdadero del intercepto en la ecuación teórica de la población

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

cuando INV.T y cuando uso DIST

A

T.DIST:2C (como te pide un x (t), te da una probabilidad, aparte de que sus valores están entre 0-1) a mayor x menos grados, mejor valor
T.INV (te pide una probabilidad, por ejemplo, p-value o alpha)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

que es ϵ

A

el error aleatorio o residuo.
(Solo en la poblacional), en la muestra se vuelve el error no explicado SSE (valor real vs. el predicho).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

por que lo valores críticos piden una probabilidad

A

el valor critico toma como supuesto el valor de significancia

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Para que se usa la prueba t

A

Determinar si un coeficiente de regresión es significativo.

Evaluar si una variable independiente tiene un efecto importante sobre la variable dependiente.

(Facilitar decisiones sobre qué variables incluir en un modelo).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Como se usa la prueba t

A

Determina el nivel de significancia y gl, calcula el valor crítico de t INV.T.2C(α ,gradosdelibertad) y compara el estadístico (Coeficiente b/Error estándar del coeficiente) con el critico

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

¿Cuál es la hipótesis nula (H0) en un modelo lineal?

A

Que el coeficiente de regresión (β) es igual a cero (β=0), lo que significa que la variable independiente no tiene un efecto significativo en y.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

¿Cuál es la hipótesis alternativa (Ha) en un modelo lineal?

A

Que el coeficiente de regresión (β) es diferente de cero (β=0), lo que significa que la variable independiente tiene un efecto significativo en y.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

¿Qué significa rechazar la hipótesis nula en un modelo lineal?

A

Significa que hay suficiente evidencia estadística para concluir que la variable independiente tiene un efecto significativo sobre y.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

¿Qué significa no rechazar la hipótesis nula en un modelo lineal?

A

Significa que no hay suficiente evidencia estadística para concluir que la variable independiente afecta
y, aunque esto no prueba que β=0.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

¿Qué se evalúa con el valor p en la prueba de hipótesis para un coeficiente?

A

Evalúa la probabilidad de observar un coeficiente tan extremo como el estimado, si la hipótesis nula (β=0) fuera verdadera.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

¿Cómo se relaciona el estadístico t con la hipótesis nula en un modelo lineal?

A

El estadístico t mide cuántas desviaciones estándar está el coeficiente estimado (b) de cero. Un valor t grande (positivo o negativo) sugiere que el coeficiente es significativo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

¿Cómo se relacionan las hipótesis con el análisis F en el modelo lineal?

A

El análisis F prueba si el conjunto de predictores, en conjunto, explica significativamente la variabilidad en y.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

region de rechazo en la H0

A

definida por el investigador o analista mediante la elección de un nivel de significancia (α) antes de realizar la prueba estadística.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

estimación puntual

A

estimación que implica calcular un solo valor del parámetro para aproximar un parámetro desconocido de la población, como la media (μ) o un coeficiente de regresión (β).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

estimación por intervalo

A

tipo de estimación que calcula un rango de valores dentro del cual se espera que se encuentre el parámetro desconocido de la población, con un nivel de confianza específico (por ejemplo, 95%).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

¿Qué suposición verifica un gráfico de residuos vs. predicciones?

A

Verifica la homocedasticidad y la linealidad de la relación entre las variables.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

¿Qué significa si los residuos en un gráfico de probabilidad normal no se alinean con la línea?

A

Indica que los residuos no siguen una distribución normal.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

¿Cómo se relaciona el valor p con la prueba de hipótesis en regresión?

A

Si p<α, rechazamos H0, concluyendo que el coeficiente es significativo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

¿Qué es la regresión lineal multiple y cuál es su propósito principal?

A

La regresión lineal múltiple utiliza más de una variable independiente para predecir una variable dependiente, mientras que la simple solo utiliza una;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Enumere y describa los supuestos fundamentales de la regresión lineal múltiple.

A

Relación lineal, independencia de los errores, normalidad de los errores, homocedasticidad, y no colinealidad.

32
Q

¿Por qué es importante verificar la normalidad de los residuos en un modelo de regresión?

A
33
Q

¿Qué significa que dos variables independientes sean colineales?

A

Que están altamente correlacionadas entre sí, lo que puede afectar la interpretación de los coeficientes.

34
Q

¿Cómo puedes detectar la multicolinealidad en un modelo de regresión lineal múltiple?

A

Utilizando factores de inflación de la varianza (VIF) o examinando las correlaciones entre las variables independientes.

35
Q

¿Qué indica un valor alto del estadístico F en un análisis ANOVA de regresión múltiple?

A

Que el modelo en su conjunto es estadísticamente significativo.

36
Q

¿Qué herramienta gráfica se utiliza para evaluar la normalidad de los residuos?

A

El gráfico de probabilidad normal de los residuos.

37
Q

¿Qué pasos se deben seguir para construir un modelo de regresión lineal múltiple en Excel o Minitab?

A

Ingresar los datos, ajustar el modelo, revisar R^2 y R^2 ajustado, realizar pruebas de hipótesis para los coeficientes y validar los supuestos.

38
Q

¿Cómo puedes evaluar el impacto de una variable independiente en el modelo?

A

Analizando el coeficiente de la variable y su valor p.

39
Q

¿Qué cambios se deben hacer en el modelo si se detecta multicolinealidad?

A

Eliminar una de las variables colineales, combinar variables.

40
Q

¿Cómo afecta la multicolinealidad a los coeficientes de regresión?

A

Los hace inestables y difíciles de interpretar, ya que las variables independientes están correlacionadas.

41
Q

¿Qué información proporciona un gráfico de residuos vs. predicciones ajustadas?

A

Ayuda a detectar patrones en los errores, indicando si se cumplen los supuestos de linealidad y homocedasticidad.

42
Q

¿Qué significa si los residuos no tienen una varianza constante (heterocedasticidad)?

A

Que el modelo no es adecuado, ya que la variabilidad de los errores cambia con las predicciones.

43
Q

¿Qué sucede si eliminas una observación que parece un outlier en el modelo?

A

Puede cambiar los coeficientes de regresión y la significancia estadística, por lo que es necesario analizar el impacto.

44
Q

¿Qué ventaja tiene transformar una variable en un modelo de regresión múltiple?

A

Puede mejorar la linealidad, reducir la heterocedasticidad o hacer que los resultados sean más interpretables.

45
Q

que es supervised learning

A

base de datos que tiene una columna que describe que es ese dato (label)

46
Q

que es unsupervised learning

A

base de no cuenta con esta columna

47
Q

que pasa con las bases de datos “unsupervised learning”

A

se convierte en un problema exploratorio y se usa la técnica de clustering

48
Q

las bases de datos que tienen label (supervised), en que problemas de pueden dividir?

A

regresión lineal (predecir un número) y clasificación (predecir solo con algunas clasificaciones)

49
Q

cual algoritmo se usa normalmente para resolver supervised learning

A

Logistic Regression

50
Q

que es la regresión logistica binaria

A

Es un modelo utilizado para predecir una variable dependiente categórica binaria (dos posibles resultados, como 0 y 1) a partir de variables independientes.

51
Q

que mide la regresion logistica

A

la probabilidad de que un evento pase o no, en base a la medida de relación entre la variable dependiente categórica, y las variables independientes

52
Q

que obtienes como resultado cuando usas regresion para resolver un modelo binario

A

se construye la linea con el best fitófaga, los datos a la izquierda es la clase negativa y a la derecha

53
Q

cual es la formula de función logística

A

L (valor máximo de la curva)/ (1+ e^-k(pendiente de la curva) * (x-x0))

54
Q

de donde sale la formula de regresión logística

A

es un caso especial de la función logística que se llama funcion sigmoid, se usa para casos binarios ya que la L es uno

55
Q

cual es la formula de regresión logística

A

P (y=1)= 1/(1+e^-(b0+b1,b2,…) (la que vamos a usar)

56
Q

¿Cuál es la principal diferencia entre la regresión logística y la regresión lineal?

A

La regresión logística predice probabilidades y utiliza una función sigmoide para modelar relaciones no lineales, mientras que la regresión lineal predice valores continuos.

57
Q

cual es el procedimiento para hacer una regresión binaria

A

Calcular estadísticas descriptivas:(promedios, desviaciones estándar y análisis gráfico) con data análisis en excel para explorar las relaciones entre las variables independientes y la dependiente binaria.
hacer en Minitab, la ec, los coeficientes, sus errores, p y z valúes, vif; calcula las predicciones con la ec y usar la formula de p(1) con y^
Validar y evaluar el model con los valores p de cada coeficiente (p<0.05) y la R^2
optimizar el modelo, volver a predecir, gráficar hacer matriz de confusión y sacar la exactitud (sumar la cantidad de valores p(19 y dividirlo entre la suma de toda la matriz)

58
Q

supuesto del modelo de regresion lineal que se puede verificar al realizar una grafica de los residuos, en el orden que fueron recolectados los datos

A

independencia

59
Q

que tipo de algoritmo es una regresión logística binaria

A

Algoritmo de aprendizaje supervisado

60
Q

un intervalo de prediccion evalua la variabilidad de los coeficientes estimados b0 y b1

A

falso

61
Q

el coeficiente de determinacion aumenta con el numero de variables. es mejor utilizar el coeficiente de determinacion ajustado, para tener en cuenta el numero de variables en el modelo

A

verdadero

62
Q

supuesto del modelo de regresion lineal que se pude verificar al calcular las correlaciones entre las variables independientes

A

no colinealidad

63
Q

supuesto del modelo de regresion lineal que se pude verificar al realizar una prueba de Durbin Watson de los residuos

A

independencia

64
Q

supuesto del modelo de regresion lineal llamado tambien homocedasticidad

A

varianza igual

65
Q

beta 0 del modelo de regresion mide el valor medio de la respuesta cuando la variable predictora es 0, (si el modelo sigue siendo un buen ajuste, cuando x=0

A

verdadero

66
Q

al ajustar un modelo de regresion, se aborda un problema de linealidad, transformando la respuesta. por ejemplo, utilizando al transformacion boxcox

A

verdadero

67
Q

un intervalo de confianza proporciona limites de referencia de la variacion esperada de individuos alrededor de un valor previsto

A

falso

68
Q

El 1−α×100 en un ANOVA representa

A

el nivel de confianza

69
Q

supuesto del modelo de regresion que estipula que la dispersión de los puntos definidos por los datos alrededor de la recta debe ser constante

A

varianza igual

70
Q

en modelos de regresión lineal simple el coeficiente beta1 representa el cambio en la respuesta media por una unidad de cambio en la variable predictoria

A

verdadero

71
Q

supuesto del modelo de regresion lineal que se puede verificar al calcular el factor de inflación de varianza para cada variables independiente

A

no colinealidad

72
Q

el coeficiente de determinación (R^2) mide la proporción de variabilidad total (suma total de cuadrados) que explica el modelo

A

verdadero

73
Q

supuesto del modelo de regresion lineal que se puede verificar al revisar con el gráfico de probabilidad de los residuos

A

normalidad

74
Q

cuando la kurtosis de un grupo de datos es mayor que cero entonces tiene un histograma ….

A

leptocúrtica

75
Q

supuesto del modelo de regresion lineal que se puede verificar al revisar la forma del histograma de los residuos

A

normalidad

76
Q

supuesto del modelo de regresion lineal que estipula que la relación entre la variables dependiente y l independiente se puede representar mediante una recta

A

Linealidad