Regresión Flashcards
La regresión lineal multiple pretende
Formular una ecuación lineal que explique el comportamiento de una VD en función de varias VI, la cual sea más completa, se realiza una valoración conjunta y se averigua el peso que tiene cada una de las variables en el fenomeno
En RLMultiple la nube de puntos es
Tridimensional que gallito, por lo q resulta poco intuitivo a la hora de analizar el comportamiento
B0 es
El punto de origen de la recta o el valor esperado de vd cuando todas las vi toman por valor 0
Los coeficientes de correlación parciales
No refleja el peso de las variables en la ecuación de regresion
Los coeficientes de regresión tipificados
Si q hablamos de un aumento o disminución de las desviaciones típicas en las puntuaciones por lo que hablamos de un peso en la recta
La recta de regresión tipificada muestra un
Conjunto de variables y un interceptor de 0
Para conocer la calidad de una ecuación de regresión tenemos que
Interpretar la correlación (Pearson) y el coeficiente de determinación que muestra la proporción de reducción de errores a causa del empleo del nuevo modelo(cuadrado de coeficiente de correlación), hay que mirar el corregido
Para contrastar la hipótesis y ver si la relación entre variables es significativa
Hay q mirar si es significativo el p valor asociado al estadístico F
El MCE
Es el error típico de estimación de residuos y es el error medio cometido al efectuar pronósticos con la recta de regresión
Entre dos ecuaciones rivales elegiremos la que tenga un MCE
Menor, ya que se buscará que la variable disminuya la suma de errores cuadráticos medios en la recta propuesta
La significacion de los coeficientes de regresión
Se mira en la tabla de coeficientes del modelo el p valor para ver la significacion de cada uno. La no significacion implicaría que eliminar la variable no afectaría al ajuste del modelo.
Cómo evaluamos el peso relativo de una variable
Depende de lo que entendamos por importancia de la variable.
Si la variable importante es la que más contribuye a explicar el cambio en la independiente se miran los coeficientes de regresión tipificados
Si lo q se busca con la variable es reducir el error del modelo (mayor contribución al ajuste global)vamos a mirar la R de Pearson del coeficiente de correlación semiparcial
Como se suele elegir las variables que se van o se quedan
Lo más importante es mirar la hipótesis de partida del investigador.
Lo segundo sería tirar de lo que crees que aporta y luego se quita lo no significativo. Eso da problemas porq no se ve el comportamiento individual de las variables eliminadas
Estrategia jerárquica de elección
Es la misma estrategia que al principio pero los vas eliminando en orden los más chiquitos primero para ver que pasa
Principio de parsimonia
Cuantas menos variables mejor todo más limpito
Principio de máximo ajuste
Intentemos meter todas las variables posibles pa explicar bn el comportamiento de la VD
El problema de la estrategia jerárquica
Cuando no hay hipótesis de partida chilling pero cuando la hay al final eliges las variables que convienen que no siempre coinciden con la teoría por lo que es difícil ver hasta que punto el modelo ayuda a explicar el fenómeno de la investigación propuesta
Para meter y sacar variables
Aumento en coeficiente de correlación múltiple y correlación parcial y reducción del error
Que pasa si no se cumple linealidaf
Existe error de especificación, no se han elegido la VI al no relacionarse con la VD de forma lineal, lo que hace que los coeficientes de regresión estén sesgados
Causas para que no se cumpla la linealidad
No se eligen bn las variables (inclusion de variables irrelevantes) o la relación que existe con la vd no es lineal
Supuesto lineal simple
Vd y Vi
Tenemos dos gráficas
-diagrama de dispersión normal con la relación entre ambas variables(tenemos que ver un patrón ascendente o descendente)
-Diagrama de errores tienen que distribuirse de forma aleatoria a lo largo del eje
Supuesto linealidad multiple
No gráficos de dispersion(mucho lio nene)Relaciones parcializadas
Diagrama de dispersión parcial para cada vi con la vd tienes que ver relación de tendencia lineal nada de cosas rectas:(
Tambn lo podemos ver más claro en la tablita de correlaciones parciales
Supuesto de no colinealidad
Relación que existe entre las variables independientes, mucha colinealidad da muchos problemas al añadir variables, inestabilidad (suele haber poca)
FIV más de diez da problemas
Estadísticos de tolerancia menor de 0.10 da problemas
Supuesto de independencia de los residuos
Estadístico durbin Watson 1.5-2.5
Mira la significacion en las p de esa tabla
Si es significativo no se cumple p menos que a no son independientes
Por debajo menor de 2 correlación positiva y mayor de 2 negativa
Suele ponerte la autocorrelacion
Supuesto de normalidad
Miramos el histograma, qq plot y Shapiro wilk
Mirar gráficos
Histograma de residuos ves la asimétria (donde ves más claro)
En qq plot todo se distribuye por la linea
Supuesto de homocedasticidad
Miramos un diagrama de dispersión tiene que situarse todo entorno al eje
Horizontal tiene que mantenerse muy constante
Errores residuos y pronosticos
Casos atipicos
Residuo estándar mayores que 3 es caso atipico
Distancia de Cook mayor que 1
La varianza explicada la buscamos en
R2
La varianza explicada la buscamos en
R2
RMSE
Cantidad de error entre conjuntop de datos. Comparando el valor predicho con el observado
R2 ajustado
El porcentaje de errores que nos permite reducir
Siempre para elegir un modelo hay q tener en cuenta primero
Si es significativa independientemente de r2
Para ver la variable mas peso
Siempre te fijas en el tipificado no directo
Importancia relativa
Sin intercepto significativa
Independencia
Entre 1.5 y 2.5
Mas p mayor q alfa es independiente
La media hay q fujarse en la
Vd que estq en el intercepto del nulo
Variable criterio
VD (Y)
Variable predictora
VI(x)
Minimos cuadrados
Metodo oara seleccionar la funcionnen el diagrama de dispersion que menor error de pronostico tenga
B1 nuncqnva a reflejar la
Intensidad de relacion solo si esta es positiva o negativa
Si no hay relacion lineal B1 es igual a
0