Clase 9: Regresión lineal ppt Flashcards

1
Q

en la regresión lineal univariada o bivariada
¿Cómo deben ser las 2 variables?

A

Numéricas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Si todos los valores caerían sobre una recta, no existiría ningún tipo de error…

A

al estimar Y en función de X.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q
  1. Hay casos en los que inmediatamente nos damos cuenta que no hay relación alguna entre X e Y.
  2. En esos casos..
A

La regresión lineal es imposible

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

La ecuación de regresión es…

A

𝑌= β_0+β_1∗𝑋+𝑒

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

¿Qué es B1?
¿dame un ejemplo?

A
  1. Es la pendiente de la recta
  2. Ofrece un tipo de información especial
  3. EJEMPLO
    Si la ecuación resulta:
    𝑌=100+21𝑋+𝜀
    - Significa que por cada unidad que aumente X, la variable Y se verá incrementada en 21 unidades
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Evaluando al coeficiente beta

A
  1. Plantear la Ho: β1=0
  2. Se evalúa con el t-Student
  3. El intercepto no se evalúa.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

El valor predicho no es exactamente igual al valor real que se ha observado.

La diferencia entre ambos valores (predicho y observado) será…

A

El residuo de ese sujeto

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Los errores o residuos deben…

A

Los errores deben ocurrir aleatoriamente, unas veces hacia arriba y otras hacia abajo, y la suma de todos es cero.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Características de los residuos

A
  1. Los residuos deben tener una distribución normal
  2. No deben seguir un patrón, sino que deben distribuirse al azar.
  3. Con los errores se pueden identificar valores extremos (outliers) y apalancamientos (leverage).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

¿Qué indica el R?
¿Cuándo R es más grande?
¿qué indica el R2?

A
  1. El estadístico “r” indica la fuerza de la correlación lineal entre dos variables.
  2. “r” es más “grande” cuando los puntos están más cerca a una línea recta y cuando la pendiente de la recta es más grande.
  3. Por otro lado “r2”, también llamado R2, indica la parte de la variación de la variable dependiente que es explicada por la variable independiente.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Características del R2

A
  1. R2 es una medida de la variabilidad que es explicada por las variables predictoras.
  2. Va del cero a uno.
    Mientras más cerca del 1, significa que la variable explicativa explica mejor a la variable dependiente.
  3. Se puede inflar artificialmente si hay muchas variables explicativas, por eso en estos casos se presta más atención al R2 corregido.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Supuestos de la regresión lineal

A
  1. Linealidad
    - Las variables independientes y dependientes deben tener una relación lineal bivariada.
  2. Independencia
    - Los valores de Y son independientes unos de otros.
    - Se puede verificar con los errores, los cuales deben ser aleatorios
  3. Homocedasticidad
    - La variable Y debe tener varianzas iguales a lo largo de los valores de X.
    - Se evalúa gráficamente y con los residuos.
    - La varianza Y es la misma que la varianza de los residuos.
  4. Distribución normal
    - Las variables X e Y deben tener una distribución razonablemente normal.
    - Hacer pruebas de normalidad o gráficos de normalidad.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

La nueva observación con la que se hará la predicción debe…

A

Formar parte de la misma población con la que se trabajó la regresión.

  • Debe formar parte del rango de X con el que se obtuvo la regresión.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

ver diapo 26 y27

A

…|

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Acerca del control estadístico

A
  1. La correlación bivariada de Pearson (la r de Pearson), es un índice de la relación lineal entre una variable independiente (𝑋_1) y una variable dependiente (𝑌).
  2. ¿Nuestra comprensión de la relación entre 𝑋_1 y 𝑌 cambia cuando agregamos una tercera variable 𝑋_2?
  3. El control estadístico puede ayudarnos a eliminar algunas explicaciones potenciales rivales.
  4. P.ej. Judge y Cable (2004), encontraron una buena asociación entre el salario y la talla de las personas. ¿Qué podría pasar si incorporamos una tercera variable “sexo” en el análisis? ¿Podría ser que esa asociación se deba a que las mujeres tienen menos ingresos y a la vez son menos altas, en promedio, que los varones?
  5. Entonces tenemos a una variable 𝑌, llamada variable respuesta y a una variable predictora llamada 𝑋_1, pero además, una tercera variable 𝑋_3 a la que vamos a llamar covariable o variable control.
  6. Una variable control frecuentemente (pero no siempre) es una variable explicatoria rival.
  7. Vamos a ver dos métodos de controlar a esa variable:
    > Separar los datos en grupos en base a los puntajes de 𝑋_2, y luego analizar la relación entre Y y 𝑋_1.
    > Obteniendo una correlación parcial entre 𝑋_1 𝑦 𝑌controlando a 𝑋_2
  8. Cuando una variable 𝑋_2 es estadísticamente controlada, la correlación entre 𝑋_1 𝑦 𝑌 puede cambiar de cualquier manera que nos podamos imaginar.
  9. Si la correlación entre 𝑋_1 𝑦 𝑌 es sustancialmente diferente cuando controlamos a 𝑋_2, entonces necesitamos explicar por qué la relación es diferente tras hacer el control.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

En la regresión lineal multivariada
¿2 cosas?

A
  1. Se incluye más de una variable independiente
  2. Se pueden incluir variables categóricas
17
Q

Ver ecuación de regresión lineal múltivariada en diapo 35…

A

18
Q

Datos de la regresión lineal multivariada

A
  1. Una regresión con varias variables independientes sirve para evaluar teorías en las que muchas variables pueden contribuir con el resultado.
  2. Se puede estudiar la influencia de una sola de las variables mientras se mantiene a las demás sin cambiar.
  3. Se pueden introducir variables para controlarlas.
  4. También se puede evaluar la interacción de dos variables.
19
Q

Problemas de investigación en regresión múltiple

A
  1. Queremos predecir una variable a partir de una combinación conocida de otras variables.
  2. Queremos determinar qué variables, de un gran conjunto de variables, son mejores predictoras de una variable criterio que otras.
  3. Queremos conocer qué tan bien podemos predecir una variable si añadimos una o más variables predictoras a la mezcla.
  4. Queremos examinar la relación de una variable con un grupo de otras variables.
  5. Queremos explicar estadísticamente, o dar cuenta de la varianza de una variable, usando un conjunto de otras variables.
20
Q

El objetivo estadístico del análisis de regresión múltiple.

A

El objetivo es producir un modelo en la forma de una ecuación lineal que identifica la mejor combinación lineal ponderada de variables independientes (explicativas) en el estudio, para predecir de manera óptima la variable de criterio (explicada).

21
Q

ver diapo 41

A

.

22
Q

En la regresión múltiple lo que se predice es

A

Sólo una variable

23
Q

que son la “b” en regresión lineal múltiple

A
  1. Son los coeficientes parciales de regresión.
  2. Cada “b” representa la contribución relativa de esa variable cuando se controla estadísticamente el efecto de las otras variables predictoras.
  3. Cada una informa la magnitud y la dirección del cambio de la variable explicada por cada 1 unidad de cambio en su respectiva variable predictora.
24
Q

Datos acerca de correlación entre variables

A
  1. Es deseable examinar inicialmente la matriz de correlación entre todas las variables participantes.
  2. Entre las independientes entre sí, y entre las independientes y la dependiente.
  3. Ninguna variable independiente debería estar demasiado correlacionada con la variable dependiente de tal manera que podría intercambiarse con ella.
  4. Correlaciones de 0.7 a más nos indican que debemos prestar atención de los peligros de tener demasiada correlación.
  5. Además debemos asegurarnos que no haya multicolinealidad (r>0.8).
25
Q

R2 en regresión lineal multiple

A
  1. El coeficiente de correlación múltiple indica el grado de asociación lineal de una variable (la dependiente) con un grupo de otras variables (las independientes).
  2. R2 es llamado coeficiente de determinación múltiple.
  3. Indica la proporción de la varianza de la variable respuesta que es explicado por el conjunto de variables predictoras.
26
Q

¿Cómo el R2 se altera?
¿Cómo lo podemos arreglar?

A
  1. El valor de R2 puede verse inflada cuando tenemos muchas variables predictoras.
  2. En este caso es preferible interpretar R2-ajustada
27
Q

¿Es el modelo estadísticamente significativo?

A
  1. Ho: R2=0
    - Si es modelo no es significativo, ya no se debe interpretar el resultado de los coeficientes.
    - Si el modelo es significativo, se procede a interpretar los coeficientes de las variables
28
Q

Evaluando cada predictor individual

A

Se evalúan las “b” a través de la t-Student.

29
Q

Variables categóricas
(regresión lineal mútiple)

A
  1. Si introducimos variables categóricas que son dicotómicas, utilizaremos la codificación 1/0.
  2. 1: la característica está presente.
  3. 0: la característica está ausente, entonces está presente la otra característica.
    - Por ejemplo, varón/mujer, podemos codificar:
    –> 0: varón, 1: mujer.
  4. Ahora si ponemos 1 significará que corresponde a una mujer, y cero a un varón.
  5. Generalmente se asigna “0” a la característica basal.
30
Q

Variables categóricas “dummy”

A
  1. Si la variable tiene varias categorías, por ejemplo, estado civil: soltero/ casado/divorciado/otros. Aquí se tiene 4 categorías, entonces se crearán 4-1 = 3 variables dummy.
  2. Cada variable se codifica como 0/1, donde 1 es la pertenencia a la categoría y cero la no pertenencia.
  3. 1-0-0 indica soltero
  4. 0-1-0 indica casado
  5. 0-0-1 indica divorciado
  6. ¿Cómo se indicará la categoría “otros”?