Aula 13 - Método dos mínimos quadrados, coeficientes de determinação e correlação. Flashcards

1
Q

1 Regressão linear simples

A

A regressão linear simples é a redução desses pontos para a reta mais próxima possível deles.
O diagrama de dispersão indica que as duas variáveis estão relacionadas. Quanto maior o valor de x, maior será o valor de y. Podemos aproximar os valores dos pares x e y a uma reta que passa entre eles. Para determinar a equação de regressão estimada que tem como modelo y = ax + b, devemos determinar os valores de a e b, em que a é a inclinação da reta de regressão e b é o ponto em que a reta de regressão estimada intercepta o eixo y.
Dentre as maneiras de determinar a equação de regressão estimada linear, usaremos a do método dos mínimos quadrados, que abordaremos a seguir.

1.1 Métodos dos mínimos quadrados

O método dos mínimos quadrados é um procedimento que usa dados amostrais para encontrar a equação de regressão estimada. A partir do diagrama de dispersão é possível observar os dados graficamente e tirar conclusões prévias sobre a possível relação entre as variáveis x e y. Quanto maior for o valor da variável x, maior será o valor da variável y. A relação entre as variáveis x e y parece aproximar-se de uma linha reta; de fato, uma relação linear positiva é indicada entre x e y.
o método dos mínimos quadrados utiliza dados amostrais para produzir os valores de a e b que minimizam a soma dos quadrados dos desvios entre os valores observados da variável dependente y e os valores estimados da variável dependente x. Esse método é dado pela equação:
[PRINT]
Ao usar cálculo diferencial na equação anterior, é possível mostrar que os valores de a e
de b podem ser encontrados utilizando as equações a seguir:
[PRINT 2]
b = y̅ – a • x̅
em que,
Σ = símbolo de somatório,
Xi = valores da variável x,
Yi = valores da variável y,
x̅ = valor médio da variável x,
y̅ = valor médio da variável y.
O valor médio da variável x é dado por meio da soma dos valores de x, dividido pelo número n de valores que foram somados, e o valor médio da variável y é dado por meio da soma dos valores da variável y, dividido pelo número n de valores somados.
O coeficiente de determinação nos apresenta uma medida da eficiência com que a equação de regressão estimada ajusta os dados. A diferença entre o valor observado da variável dependente Y e o valor estimado da variável dependente (Ŷ) é chamada de resíduo. Essa diferença representa o erro de usarmos Ŷ para estimar Y. A soma dos quadrados desses resíduos ou erros é a quantidade que é minimizada pelo método dos mínimos quadrados. Essa quantidade é também chamada de soma dos quadrados dos erros e é representada por SSE (sum of squares due to error).
SSE = Σ (Yi- Ŷi)2
Pode-se afirmar que SSE é uma medida de erro de se usar a equação de regressão estimada para estimar (calcular) os valores da variável dependente Y da amostra.
A soma total dos quadrados, SST, é dada pela fórmula: SST = Σ (Yi- Y̅i)2
Podemos afirmar que a SST é uma medida que verifica quão satisfatoriamente as aproximações se agrupam nas proximidades da reta estimada Ŷ= 2,6x – 1,4.
Para medir quanto os valores de y ̂ na reta de regressão estimada se afastam de Y̅ (média da variável Y), outra soma de quadrados é calculada. Essa soma de quadrados, denominada soma dos quadrados de regressão (SSR), é dada por:
SSR = Σ (Ŷi- Y̅)2
Podemos relacionar essas três somas de quadrados, produzindo um resultado muito importante em estatística.
SST = SSR + SSE
A equação de regressão estimada, de acordo com Anderson, Sweeney e Williams (2011), forneceria um ajuste perfeito, se todo valor da variável dependente Y se situasse na reta de regressão estimada. Nesse caso, Yi- Ŷi seria igual a zero para cada observação, resultando em SSE = 0. Acontecendo isso, sendo SST = SSR + SSE, substituindo SSE por 0, teremos SST = SSR. Assim, para haver um ajuste perfeito, a razão entre SSR e SSE deve ser igual a 1, ou seja, SSR/SSE = 1.
A razão entre SSR/SST, que assumirá valores entre 0 e 1, é usada para avaliar a eficiência de ajuste da equação de regressão estimada. Esse valor é o que se chama de coeficiente de determinação e é representada por r2.
No exemplo 1 percebe-se, por meio do diagrama de dispersão, que pontos se aproximam da reta que foi determinada por meio dos mínimos quadrados. Para avaliar se o ajuste por meio da equação de regressão estimada é bom ou não, calcularemos o coeficiente de determinação pela razão entre SSR e SST. 3 Coeficiente de correlação
O coeficiente de correlação é uma medida que determina o grau de relação entre duas variáveis e que varia de –1 a +1. Quando o coeficiente de correlação é igual a +1 ou próximo desse valor, a relação linear é positiva. Quando o coeficiente de correlação está próximo de –1 ou é igual a esse valor, afirmamos que a relação é linear negativa. Em uma aula anterior, mostramos como se calcula esse coeficiente pelo método de Person.
O coeficiente de correlação da amostra será calculado a partir da fórmula:
[PRINT 3]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly