Aula 12 - Regressão linear, correlação e diagrama de dispersão Flashcards
1 Correlação
1.1 Coeficiente de correlação
O coeficiente de correlação pode ser usado diretamente para avaliar o grau de
relacionamento que existe entre duas variáveis X e Y. O coeficiente de correlação varia entre
–1 e 1. Valores que se aproximam de –1 ou 1 indicam uma relação linear forte. Quanto mais
próxima a correlação estiver de zero, mais fraca será a relação entre essas variáveis X e Y. se todos os pontos de dados, quando representados graficamente no diagrama
de dispersão, se situam em uma linha positivamente inclinada, o valor do coeficiente de
correlação dessa amostra é +1; ou seja, um coeficiente de correlação igual a +1 corresponde
a um relacionamento positivo perfeito entre as variáveis X e Y. O mesmo pode acontecer
quando o coeficiente de correlação for –1. Isso significa que temos todos os pontos do
conjunto de dados situados numa reta com inclinação negativa. Quando o coeficiente de correlação for igual
a zero, não há nenhuma relação linear entre as variáveis X e Y.
2 Diagrama de dispersão
O diagrama de dispersão é o nome que se dá à representação dos pontos no plano
cartesiano. No eixo horizontal estão as notas de Matemática Financeira, que chamamos de variável
X, e no eixo vertical estão as notas de Estatística, que chamamos de variável Y. Os pares de
notas (X,Y) estão representados neste diagrama de dispersão.
De acordo com Anderson, Sweeney e Williams (2011), um diagrama de dispersão é uma
apresentação gráfica da relação existente entre duas variáveis, e uma linha de tendência é
uma linha que fornece uma aproximação da relação.
[PRINT 12]
3 Regressão linear simples
De acordo com Anderson, Sweeney e Williams (2011), se for possível obter os dados, um
procedimento estatístico denominado análise de regressão pode ser usado para desenvolver
uma equação que demonstra como as variáveis se relacionam. Na análise de regressão, a
variável que é prevista é dita variável dependente. A variável que é usada para prever o valor
da variável dependente denomina-se variável independente.
O tipo mais simples da análise de regressão envolvendo duas variáveis, sendo uma
independente e a outra dependente, na qual a relação entre essas variáveis se aproxima de
uma linha reta, é chamada de regressão linear simples.
Para cada nota X (Matemática Financeira) corresponde uma nota Y (Estatística). A
equação que descreve como Y relaciona-se com X é chamada de equação de regressão linear
simples e pode ser escrita como:
Y=aX+b
Sendo a e b chamados de parâmetros.
O gráfico da equação linear simples é uma linha reta. O parâmetro a é a inclinação ou
declive da reta e o parâmetro b é o ponto onde a linha ou reta intercepta o eixo Y.
Se os valores dos parâmetros a e b forem conhecidos, pode-se usar a equação
Y=aX+b para estimar a nota Y (Estatística) sabendo a nota X (Matemática Financeira).
A correlação de duas variáveis é uma medida do grau de relacionamento ou associação
entre elas. Essa medida está sempre entre –1 e +1. Se as duas variáveis são independentes,
a correlação é zero. Quando o coeficiente de correlação está próximo de +1, afirma-se que
há uma relação linear positiva – se esse coeficiente for igual a +1, essa relação é linear
positiva perfeita – e essa reta para a qual os pontos no gráfico de dispersão estão tendendoé crescente. Quando o coeficiente de correlação está próximo de –1, afirma-se que há uma
relação linear negativa entre as variáveis e, se esse coeficiente de correlação for igual a –1, a
relação é linear negativa perfeita. A reta para a qual os pontos se aproximam é decrescente.
O gráfico de dispersão é a representação gráfica das duas variáveis em questão.
Determina-se qual variável será X e qual variável será Y e representa-se esse par (X, Y) no plano
cartesiano. Esses pontos representados formam o que se chama de gráfico de dispersão.
Quando é possível, por meio do cálculo do coeficiente de correlação e do gráfico de
dispersão, afirmar que há uma forte relação entre as duas variáveis X e Y em questão,
verifica-se que os pontos no gráfico de dispersão tendem a uma reta. Essa reta é chamada
de regressão linear simples. Conhecendo-se os parâmetros dessa reta de regressão linear, é
possível, sabendo-se o valor da variável X, estimar o valor da variável Y.
De acordo com Anderson, Sweeney e Williams (2011), a análise de regressão não pode
ser interpretada como um procedimento para estabelecer uma relação de causa e efeito
entre as variáveis. Ela é somente capaz de indicar como ou em que grau as variáveis estão
associadas entre si. Quaisquer conclusões sobre causa e efeito devem-se basear-se no
julgamento de pessoas que têm o melhor conhecimento da aplicação.