Clase 9: Regresión lineal ppt Flashcards
en la regresión lineal univariada o bivariada
¿Cómo deben ser las 2 variables?
Numéricas
Si todos los valores caerían sobre una recta, no existiría ningún tipo de error…
al estimar Y en función de X.
- Hay casos en los que inmediatamente nos damos cuenta que no hay relación alguna entre X e Y.
- En esos casos..
La regresión lineal es imposible
La ecuación de regresión es…
𝑌= β_0+β_1∗𝑋+𝑒
¿Qué es B1?
¿dame un ejemplo?
- Es la pendiente de la recta
- Ofrece un tipo de información especial
- EJEMPLO
Si la ecuación resulta:
𝑌=100+21𝑋+𝜀
- Significa que por cada unidad que aumente X, la variable Y se verá incrementada en 21 unidades
Evaluando al coeficiente beta
- Plantear la Ho: β1=0
- Se evalúa con el t-Student
- El intercepto no se evalúa.
El valor predicho no es exactamente igual al valor real que se ha observado.
La diferencia entre ambos valores (predicho y observado) será…
El residuo de ese sujeto
Los errores o residuos deben…
Los errores deben ocurrir aleatoriamente, unas veces hacia arriba y otras hacia abajo, y la suma de todos es cero.
Características de los residuos
- Los residuos deben tener una distribución normal
- No deben seguir un patrón, sino que deben distribuirse al azar.
- Con los errores se pueden identificar valores extremos (outliers) y apalancamientos (leverage).
¿Qué indica el R?
¿Cuándo R es más grande?
¿qué indica el R2?
- El estadístico “r” indica la fuerza de la correlación lineal entre dos variables.
- “r” es más “grande” cuando los puntos están más cerca a una línea recta y cuando la pendiente de la recta es más grande.
- Por otro lado “r2”, también llamado R2, indica la parte de la variación de la variable dependiente que es explicada por la variable independiente.
Características del R2
- R2 es una medida de la variabilidad que es explicada por las variables predictoras.
- Va del cero a uno.
Mientras más cerca del 1, significa que la variable explicativa explica mejor a la variable dependiente. - Se puede inflar artificialmente si hay muchas variables explicativas, por eso en estos casos se presta más atención al R2 corregido.
Supuestos de la regresión lineal
- Linealidad
- Las variables independientes y dependientes deben tener una relación lineal bivariada. - Independencia
- Los valores de Y son independientes unos de otros.
- Se puede verificar con los errores, los cuales deben ser aleatorios - Homocedasticidad
- La variable Y debe tener varianzas iguales a lo largo de los valores de X.
- Se evalúa gráficamente y con los residuos.
- La varianza Y es la misma que la varianza de los residuos. - Distribución normal
- Las variables X e Y deben tener una distribución razonablemente normal.
- Hacer pruebas de normalidad o gráficos de normalidad.
La nueva observación con la que se hará la predicción debe…
Formar parte de la misma población con la que se trabajó la regresión.
- Debe formar parte del rango de X con el que se obtuvo la regresión.
ver diapo 26 y27
…|
Acerca del control estadístico
- La correlación bivariada de Pearson (la r de Pearson), es un índice de la relación lineal entre una variable independiente (𝑋_1) y una variable dependiente (𝑌).
- ¿Nuestra comprensión de la relación entre 𝑋_1 y 𝑌 cambia cuando agregamos una tercera variable 𝑋_2?
- El control estadístico puede ayudarnos a eliminar algunas explicaciones potenciales rivales.
- P.ej. Judge y Cable (2004), encontraron una buena asociación entre el salario y la talla de las personas. ¿Qué podría pasar si incorporamos una tercera variable “sexo” en el análisis? ¿Podría ser que esa asociación se deba a que las mujeres tienen menos ingresos y a la vez son menos altas, en promedio, que los varones?
- Entonces tenemos a una variable 𝑌, llamada variable respuesta y a una variable predictora llamada 𝑋_1, pero además, una tercera variable 𝑋_3 a la que vamos a llamar covariable o variable control.
- Una variable control frecuentemente (pero no siempre) es una variable explicatoria rival.
- Vamos a ver dos métodos de controlar a esa variable:
> Separar los datos en grupos en base a los puntajes de 𝑋_2, y luego analizar la relación entre Y y 𝑋_1.
> Obteniendo una correlación parcial entre 𝑋_1 𝑦 𝑌controlando a 𝑋_2 - Cuando una variable 𝑋_2 es estadísticamente controlada, la correlación entre 𝑋_1 𝑦 𝑌 puede cambiar de cualquier manera que nos podamos imaginar.
- Si la correlación entre 𝑋_1 𝑦 𝑌 es sustancialmente diferente cuando controlamos a 𝑋_2, entonces necesitamos explicar por qué la relación es diferente tras hacer el control.