Clase 9: Regresión lineal: Univariada - Múltiple Flashcards
La regresión lineal univariada se usa para analizar la relación entre 2 variables…
Cuantitativas
Las técnicas más utilizadas para investigar la relación entre dos
variables cuantitativas son:
- Correlación
- Regresión lineal
¿Cuál es la diferencia entre correlación y regresión lineal?
- Correlación:
- La correlación cuantifica la fuerza de la relación lineal entre un par de variables - Regresión lineal:
- Expresa la relación en forma de ecuación
Al investigar una relación entre dos variables, el primer paso es mostrar
los valores de los datos…
Gráficamente en un diagrama de dispersión
Cómo interpreto un diagrama de difusión?
- Cuanto más cerca estén los puntos de una línea recta, más fuerte será la relación lineal entre 2 variables
¿como cuantifico la fuerza de la relación?
(correlación)
- Calculando el coeficiente de CORRELACIÓNN: “r”
- Este es el coeficiente de relación del momento del producto (Coeficiente de correlación de pearson)
Valores e interpretación del coeficiente de CORRELACIÓN
- El valor se encuentra entre -1 a +1
- Un valor del coeficiente de correlación cercano a +1 indica una fuerte relación lineal positiva (es decir, una variable aumenta con la otra
- Un valor cercano a –1 indica una fuerte
relación lineal negativa (es decir, una variable disminuye a medida
que la otra aumenta - Un valor cercano a 0 indica que no hay
relación lineal
Hipótesis nula de la CORRELACIÓN
El coeficiente de CORRELACIÓN de la población es igual a 0
Osea no hay relación lineal entre las 2 variables
Aunque la prueba de hipótesis indica si existe una relación lineal, no
da ninguna ___________.
Esta adicional se obtiene a partir del _____
- Indicación de la fuerza de esa relación
- Intervalo de confianza para el coeficiente de CORRELACIÓN poblacional
Ya hemos dicho que para indicar la fuerza de la relación hacemos el cálculo del intervalo de confianza
¿Cuáles son los pasos para obtenerlo?
- Primero transformamos “r” para que nos de una distribución normal mediante la “Transformación z de Fisher”
- “Zr” - En segundo lugar calculamos el ERROR ESTÁNDAR: 1/ raiz cuadrada de n-3
- Por último,
- IC del 95%: Zr - (1.96 x EE) a Zr + (1.96 x EE)
¿De qué depende la amplitud del intervalo de confianza?
- Del tamaño de muestra
- por lo tanto, es posible calcular el tamaño
de muestra requerido para un nivel dado de precisión
Uno de los errores más comunes al interpretar el coeficiente de correlación es…
No considerar que puede haber una tercera variable relacionada con ambas variables investigadas, que es responsable de la aparente correlación.
Dato importantísimo de la CORRELACIÓN
LA CORRELACIÓN NO IMPLICA CAUSA
- IMPLICA ASOCIACIÓN
Otra situación en la que a veces se malinterpreta un coeficiente
de correlación es cuando s
Se comparan dos métodos de
medición.
Queremos estimar la relación lineal subyacente para poder predecir la urea (y por tanto la urea) para una edad determinada.
¿Qué podemos utilizar?
Se puede utilizar regresión lineal para encontrar la ecuación de la recta
- Suele denominarse línea de regresión
en un diagrama de dispersión la variable de respuesta
siempre se traza en
el eje vertical (y).
La ecuación de una línea recta viene dada por
r y = a + bx,
son la intersección de la línea en el eje y y el
gradiente, respectivamente
(en el contexto de la ecuación de una línea)
Los coeficientes a y b
¿Cómo se obtiene la recta de regresión?
- Mediante el método de cuadrados mínimos
Para un valor particular de x, la diferencia
vertical entre el valor observado y ajustado de y se conoce como
Desviación o residual
¿qué hace el método de mínimos cuadrados?
- Minimiza la suma de los cuadrados de las desviaciones de los puntos con respecto a la recta de regresión
- Esta técnica es la que me elije mejor la línea
Cómo se denomina la suma de cuadrados explicada y no explicada?
- Suma de cuadrados explicada
- Suma de cuadrados de regresión - Suma de cuadrados no explicada
- Suma de cuadrados residual
a que son iguales los cuadrados medios?
Los cuadrados medios son la suma de
cuadrados divididos por sus grados de libertad
Si no hubiera una relación lineal entre las variables, entonces…
- Los cuadrados medios de la regresión serían aproximadamente iguales
que los cuadrados medios residuales. - Podemos probar la hipótesis
nula de que no existe una relación lineal utilizando una “PRUEBA F”
a prueba F del
análisis de varianza es equivalente a la…
Prueba t del gradiente para regresión con un solo predictor
Como se analizó
anteriormente, la prueba de gradiente también es equivalente a…
La de CORRELACIÓN, dando 3 pruebas con resultados p idénticos
¿Qué es el coeficiente de determinación?
(R2)
1. Es la proporción de la variación total en y explicada por el modelo de
regresión.
- (R2) es la proporción de la variación en la variable dependiente que es explicada por las variables independientes en el modelo.
- Indica la proporción de la varianza de la variable respuesta que es
explicado por el conjunto de variables predictoras.
Supuestos de la regresión lineal
- Observaciones INDEPENDIENTES
- Ambas variables deben ser
variables ALEATORIAS, pero para la regresión solo la variable de respuesta y debe ser aleatoria - Variable respuesta debe de tener una DISTRIBUCIÓN NORMAL
- Tanto la correlación
como la regresión suponen que la relación entre las dos variables es
LINEALIDAD.
———————————————————————————– - Distribución normal
- Linealidad
- Independencia
- Homocedasticidad
proporciona una verificación
inicial de los supuestos de regresión.
Diagrama de dispersión de datos
¿Qué veremos en el gráficos de dispersión si los residuos tienen una distribución normal)
- Este gráfico mostrará una línea recta.
- (Una distribución
normal estándar es una distribución normal con media = 0 y
desviación estándar = 1)
Un fenómeno que debe tenerse en cuenta y que puede surgir con
mediciones repetidas de individuos es la
Regresión de la media