Aula 01 Flashcards
Medidas de Posição Central (ou locação) I
Muitas vezes pode ser útil resumir todas as informações em um número. Uma forma utilizada para isso são as medidas de posição, no caso, medidas de tendência central, que darão uma ideia dos valores aproximados em torno do qual as observações se agrupam. Há diversos tipos como mediana, moda, média aritmética, média geométrica e média harmônica
Usando como exemplo o rol
10, 15, 24, 24, 24, 29, 29, 36, 36, 45, 65
Média aritmética (média)
Soma-se todas as observações e divide o somatório pelo número total de observações
Média = (10 + 15 + 24 + 24 +24 + 29 + 29 + 36 + 36 + 45 + 65) / 11 = 30,63
Outra forma de apresentar a mesma média é por meio de atribuição de pesos às observações, por conta das respectivas frequências, nesse caso, multiplica-se cada uma das observações pela respectiva frequência e divide-se pelo total de frequências
Média = ((10*1) + (15*1) + (24*3) + (29*2) + (36*2) + (45*1) + (65*1)) / 11 = 30,63
Pode ser dado como
Média aritmética = Σxi/n
Onde xi é a i-ésima observação de uma série e n o total de observações
Ou para a média com frequências, sendo fi a frequência da i-ésima observação
Média aritmética = Σ(fi*xi)/n = Σ(fi*xi)/Σfi
Média aritmética também é chamado de valor esperado ou expectância E(x)
Média Geométrica
Tira-se a raiz n-ésima do produto de uma série de n elementos
Media geométrica = raiz(^11)(10*15*24*24*24*29*29*36*36*45*65)
Genericamente no caso de n observações
Média geométrica = raiz(^n)(x1*x2*…*xn)
Média Harmônica
Média harmônica = 11 / (1/10 + 1/15+ 1/24+ 1/24+ 1/24+ 1/29+ 1/29+ 1/36+ 1/36+ 1/45+ 1/65)
Genericamente
Média harmônica = n/Σ(1/xi)
Relação entre médias
É possível provar que, para determinado rol de valores
Média aritmética ≥ Média geométrica ≥ Média harmônica
Medidas de Posição Central (ou locação) II
Moda
Definida como a realização mais frequente do conjunto observado
No exemplo, o valor 24 é que aparece a maior quantidade de vezes ao longo da série, sendo este a moda. Uma forma que facilita enxergar a moda é com base na tabela de frequências
Mediana
É a realização que ocupa a posição central da série de observações
- ATENÇÃO caso as observações estiverem desordenadas, deve primeiro se ordenar elas antes de buscar o valor central
No exemplo, tem-se 11 observações, sendo a mediana, a observação que separa a séria em duas partes iguais, no caso 29
Genericamente, considerando n o número de observações
Mediana = (n+1)/2
Caso o número de observações for par, não há observação que divide a série em duas partes iguais. Nesse caso, tira-se uma média aritmética das duas que dividem
Ex. rol: 10, 15, 24, 24, 24, 29, 29, 36, 36, 45, 65, 80
Mediana = (12+1)/2 = 6,5
Pega-se os valores da sexta e sétima posição e tira-se a média
Mediana = (29+29)/2 = 29
Propriedades das medidas de posição central
Por meio de um operador estatístico pode-se aplicar determinada operação a um conjunto de dados
Ex. chame o conjunto de dados de X, assim, ao aplicar o operador média aritmética
Média aritmética = X(barra) = ∑xi/n
Média(X) = 30,63
Trata-se de forma simplificada de representar a aplicação de uma determinada operação a um conjunto
O operador média responde a determinadas operações, tendo algumas propriedades, são elas
- se somar/subtrair todas as observações com um determinado valor fixo, tal como x, toda a média terá resultado igual ao anterior à operação mais/menos x
- ex. com base no rol 10, 15, 24, 24, 24, 29, 29, 36, 36, 45, 65
Somando 10 a cada observação tem-se o novo rol
20, 25, 34, 34, 34, 39, 39, 46, 46, 55, 75
Média = 40,63
Dessa forma, para uma constante a tem-se
Média (a + X) = X(barra) + a
- se multiplicar/dividir todas as observações por um determinador valor fixo, tal como x, a média terá resultado igual ao anterior multiplicado/dividido por x
- Ex. mesmo rol anterior multiplicado por 2
20, 30, 48, 48, 48, 58, 58, 72, 72, 90, 130
Média = 61,27
Para uma constante a
Média (a*X) = X(barra)*a
- média de uma constante é o valor da própria constante
Medidas de Dispersão
Visam tornar a avaliação do conjunto de dados por meio de estatísticas-resumo mais próximas da realidade. A simples observação da média não diz muita coisa sobre um conjunto de dados
Ex. rol (9,10,50) e rol (22,24)
Ambos possuem média = 23
Não é possivel visualizar o rol somente pelo resultado da média, pois há uma grande variabilidade no primeiro rol, o que não ocorre no segundo. Dessa forma, deve-se encontrar uma medida que mostre o quanto as observações estão desviando da média
A soma dos desvios de uma série em relação à média sempre é igual a zero
Ex. rol (9,10,50)
Chamando cada observação de xi e a média da série de x(barra), calculando o somatório dos desvios com relação à média
∑(xi-x(bar)) = (9-23) + (10-23) + (50-23) = 0
Uma das formas para mensurar o desvio é o desvio médio, no caso, para n observações tem-se
Desvio médio = ∑|xi - x(bar)| / n
Dessa forma, tem-se que
∑|xi - x(bar)| / n = ( |9-23| + |10-23| + |50-23| ) / 3 = (14+13+27)/3 = 18
Outra possibilidade é a medida de dispersão variância
Variância = ∑(xi - x(bar))² / n
Do exemplo tem-se que
∑(xi - x(bar))² / n = ((9-23)² + (10-23)² + (50-23)²)/3 = 364,66
Como as variáveis resultantes estão elevadas ao quadrado, pode causar problema de interpretação, dessa forma, uma outra medida é o desvio padrão, que é a raiz quadrada da variância
Desvio padrão = raiz(^2)(∑(xi - x(bar))² / n)
No exemplo, tem-se
Desvio padrão = 19,06
Sendo mais próximo ao valor do desvio médio, permitindo maior comparação
Uma forma mais fácil para calcular a variância em uma prova é da forma
Variância = média dos quadrados - quadrado da média
Var = MQ - QM
Ex. rol (9,10,50)
Média = 23
Quadrados (81,100,2500)
Média dos quadrados = 893,66
Variância = 893,66 - 529 = 364,66
Propriedades da variância e do desvio padrão
- se somar/subtrair qualquer valor fixo das observações utilizadas para o cálculo da variância (Var) ou do respectivo desvio padrão (DP),o resultado ficará inalterado
- Ex. rol (9,10,50)
Diminuindo 3 de cada observação
rol (6,7,47)
Média = 20 Var = 364,66
O mesmo pode-se dizer do desvio padrão, pois se trata do quadrado da Var
Dado contante a
Var (a+X) = Var(X)
DP (a+X) = DP(X)
- se multiplicar/dividir todas observações por determinado valor fixo, tal como x, a variância resultante ficará multiplicada/dividida por x², enquanto que o desvio padrão resultante ficará multiplicado/dividido por x
- uma forma de pensar é que variância lembra quadrados enquando desvio padrão lembra raiz da mesma
- x * DP = raiz(^2)(x² * Var)
- Ex. multiplicar todas observações por 2
rol (18,20,100)
Média = 46 Var = 1458,66 DP = 38,19
Dado constante a
Var (a*X) = a²*Var(X)
DP (a*X) = a*DP(X)
- variância de uma constante pode ser considerada nula
Coeficiente de Variação
O desvio padrão é muito afetado pelo valor absoluto dos dados, o que dificulta a comparação de séries com valores muito diferentes, dessa forma usa-se o coeficiente de variação (cv), dividindo-se o desvio padrão pela respectiva média aritmética, permitindo-se comparações entre desvios padrões de séries com valores muito diferentes
cv = DP (X) / X(bar)
Medidas separatrizes e assimetria
Outra forma de visualizar uma distribuição e representá-la é por meio de medidas separatrizes, sendo observações que separam os dados de uma série de forma específica, por meio dos percentis
Percentil de ordem p significa o valor da observação que não é superado por p% das observações da série
- ex. de dessa medida é a mediana, dividindo o conjunto em 2 partes iguais onde metade das observações possuirá valores menores que ela e metade maiores. A mediana é um percentil de ordem 50
- outro exemplo é o quartil, que divide as observações em 4 partes iguais
- outro exemplo é o decis, que dividem a série em 10 partes iguais
Em relação ao quartil, dado
rol 2,3,6,8,9,10,13,15,18,21,23
tem-se o quartil
rol 2,3,6,8,9,10,13,15,18,21,23
1º quartil: 6
2º quartil: 10
3º quartil: 18
Caso o rol fosse composto de 8 elementos
rol 2,3,8,9,13,15,21,23
Da mesma maneira como foi feito na mediana, encontra-se o ponto médio desses pontos (nesse caso, entre 3 e 8; entre 9 e 13; e entre 15 e21)
rol 2,3,5,8,9,11,13,15,18,21,23
- pode-se também tirar a mediana geral e dessa mediana tirar a mediana de cada parte (meio do meio, etc)
O conceito de quartil é comumente utilizado com o intuito de verificar o grau de simetria de uma distribuição
Distância interquartil ou amplitude interquartil
A distância interquartil (dq) é uma medida da diferença de valores entre o terceiro (q3) e o primeiro quartil (q1)
dq = q3 - q1
Essa medida dá uma ideia do grau de dispersão de uma série, pois quanto maior o resultado, menor é a concentração dos valores da série ao redor da mediana
Distribuição simétrica tem a ver com a distância entre diversos quartis e as observações extremas das séries
- valores à direita devem ser “semelhantes” aos da esquerda
- ex. distribuição normal ou gaussiana
Para uma distribuição simétrica ou aproximadamente simétrica, as observações devem respeitar as seguintes condições
- q2 - 1ª observação = última observação - q2 (“tira-se as pontas”)
- q2 - q1 = q3 - q2
- q1 - 1ª observação = última observação - q3
- distância entre mediana (q2) e q1 ou q3 menores que as distâncias entre os extremos (1ª e última observação) e q1 ou q3
Se os quantis da direita estiverem mais afastados da mediana do que os da esquerda, a distribuição seria assimétrica à direita. A concentração da distribuição ocorre na parte direita. Caso os quantis da esquerda estejam mais afastados, tem-se assimetria à esquerda
O que muda em relação à assimetria da distribuição é o posicionamento da média, mediana e moda (ver fig.)
- assimetria à esquerda
- média < mediana < moda
- assimetria à direita
- moda < mediana < média
Isso ocorre pois
- moda é o ponto de maior frequência, no topo da curva. Como se está gerando mais ocorrências dos lados, a moda permanece praticamente estática no ponto de maior frequência
- média, no caso de assimetria à direita, haverá observações com valores muito altos, puxando o valor da média para cima. Ela é a medida mais sensível a valores extremos (moda e mediana não são afetadas por pontos extremos)
- mediana sempre estará entre a moda e a média
Caso a distribuição seja simétria, tem-se que
- média = mediana = moda
Box-plots ou Gráficos em caixa
Forma gráfica de representar uma distribuição com base nos quartis e mediana de uma série (ver fig.)
O eixo vertical dispõe os valores da série de dados e a caixa é utilizada para saber o posicionamento da mediana e dos quartis de uma sequência, ajudando a verificar a simetria da distribuição
Além disso, é possível verificar a possibilidade de existirem outliers ou valores atípicos na série, através da indicação de desvios, dados por
- limite superior = q3 + 1,5*dq
- limite inferior = q1 - 1,5*dq
Isso significa que qualquer observação em um intervalo de 1,5x a distância interquartil contada a partir do 1º ou 3º quartil, é considerada dentro do normal
Tabelas de frequências e medidas de posição e dispersão I
Frequência acumulada
Ex. suponha pesquisa feita sobre altura de determinada população
Altura || Freq. Absoluta || Freq. Acumulada
1,5 |- 1,6 || 10 || 10
1,6 |- 1,7 || 10 || 20
1,7 |- 1,8 || 5 || 25
1,8 |- 1,9 || 5 || 30
Total || 30 || x
A frequência acumulada indica quantos elementos estão abaixo de determinado valor. Dessa forma, um grupo de 1,5 até 1,6 possui 10 indivíduos, já um grupo de 1,5 até 1,7 terá 20 indivíduos, pois de 1,6 até 1,7 terá outros 10 indivíduos, sendo que a frequência acumulada na última classe coincide com o tamanho da amostra
A frequência acumulada pode ser feito com base nas frequências relativas calculadas para uma série, nesse caso, a acumulada irá identificar qual a porcentagem de elementos que estão abaixo de determinado valor
Ex.
Altura || Freq. Absoluta || Freq. Acumulada
1,5 |- 1,6 || a || 10
1,6 |- 1,7 || b || 20
1,7 |- 1,8 || c || 25
1,8 |- 1,9 || d || 30
Total || e || x
Sabemos que o total será e = 30. Para a próxima classe deve-se subtrair da última classe a frequência acumulada da classe anterior d = 30 - 25 = 5 e assim por diante
Tabelas de frequências e medidas de posição e dispersão II
Medidas de posição e dispersão calculados para dados agrupados em classes
Caso da média
Terá que ser dado um “chute” para o valor representativo de cada classe
- calcule o ponto médio de cada classe e considere que a classe é representada por este ponto
ponto médio = (li + ls) / 2
Sendo ls o limite superior e li o limite inferior
Do exemplo anterior tem-se
Altura || Freq. Absoluta
1,55 || 10
1,65 || 10
1,75 || 5
1,85 || 5
Total || 30
Considera-se um chute, pois pode acontecer de que nenhuma das observações coincida com o ponto médio. Para o cálculo usa-se as frequências absolutas ou relativas
Média Aritmética = ∑(fi*xi) / n = ∑(fi*xi) / ∑fi
Média Aritmética = (10*1,55 + 10*1,65 + 5*1,75 + 5*1,85) / 30 ~= 1,66
Caso da variância, desvio padrão e desvio médio
Da mesma forma que a média, calcula-se os pontos médios de cada intervalo e utiliza-os como se fossem a observação representativa da classe e calcula-se a variância e o desvio médio, sendo fi a frequência absoluta da classe e n a ∑fi
Var = ∑[fi * (xi-x(bar))²] / n
Var = MQ - QM
MQ = ∑[((xi)² * fi)] / n
QM = média aritmética
Desvio médio = ∑[fi * |xi-x(bar)|] / n
Var = 10*(1,55-1,66)² + 10*(1,65-1,66)² + 5*(1,75-1,66)² + 5*(1,85-1,66)² / 30 ~= 0,01
Desvio médio = 10*|1,55-1,66| + 10*|1,65-1,66| + 5*|1,75-1,66| + 5*|1,85-1,66| / 30 ~= 0,088
Caso da Moda
Ex.
Altura || Freq. Absoluta
1,5 |- 1,6 || 10
1,6 |- 1,7 || 20
1,7 |- 1,8 || 5
1,8 |- 1,9 || 5
Total || 40
Classe modal é aquela que aparece mais vezes, assim como no conceito de moda no caso de observações não agrupadas em classe
Primeira forma de se encontrar a moda é por meio da moda bruta, de forma a representar um intervalo com base no seu ponto médio, dessa forma, do exemplo tem-se
Altura || Freq. Absoluta
1,55 || 10
1,65 || 20
1,75 || 5
1,85 || 5
Total || 40
A moda é 1,65 pois é a observação que mais ocorre. No entanto, a forma mais coum de se obter o cálculo da moda é por meio da fórmula de Czuber
Moda Czuber = li + h * [(fclasse - fclasse_ant) / ((fclasse - fclasse_ant) + (fclasse - fclasse_post))]
Sendo
li - limite inferior da classe modal
h - amplitude da classe modal
fclasse - frequência da classe modal
fclasse_ant - frequência da classe anterior à classe modal
fclasse - frequência da classe posterior à classe modal
Do exemplo tem-se que a classe modal é 1,65, visto antes, então
Moda Czuber = 1,6 + 0,1 * (20-10) / ((20-10) + (20-5)) = 1,6 + 0,1 * 0,4 = 1,604
Existe também outros 2 jeitos menos frequentes em provas
Moda King = li + h * [(fclasse_post) / (fclasse_post + fclasse_ant)]
Moda de Pearson ~= 3 * Mediana - 2 * média
Tabelas de frequências e medidas de posição e dispersão III
Caso das medidas separatrizes (mediana)
Para encontrar tais valores, usa-se a interpolação linear por ex.
Altura (m) || Freq. Absoluta || Freq. Relativa*100 (%) || Freq. Acumulada
1,5 |- 1,6 || 20 || 20% || 20
1,6 |- 1,7 || 30 || 30% || 50
1,7 |- 1,8 || 25 || 25% || 75
1,8 |- 1,9 || 25 || 25% || 100
Total || 100 || 100% || x
Perceba-se que até 1,7 acumularam-se 50% das observações, sendo, portanto, a mediana
Já o 3º quartil está em 1,8 pois a observação não é superada por 75% da série. No entanto, o 1º decil (10%) não é facilmente encontrado
A ideia da teoria (interpolação da ogiva) se baseia no fato de que há uma regularidade da distribuição dos dados dentro de uma classe, de modo que a quantidade de dados dispostos em determinada seção seja proporcional à sua amplitude
- ex. se determinada classe acumula 50% das observações com aplitude de 10, 25% do total da série estará acumulado em uma observação que corresponde à amplitude de 5 nesta classe
Portanto, para o exemplo anterior, 20% das observações (segundo decil) corresponde a amplitude de 10cm (1,6-1,5), para obter o acúmulo de 10% das observações, utiliza-se regra de 3
(1,6 - 1,5) / 20% = (1ºdecil - 1,5) / 10% = 0,1*0,5 + 1,5 = 1,55
Outro exemplo, caso se queira calcular o 8º decil estará acima de 80% das observações, sabe-se que estará entre 1,8 - 1,9. Temos que
1,9 - 1,8 representa 25% das observações, e sabemos que o 8º decil estará acima de 80%, ou seja, 75% anteriores (freq. acumulada até então) mais 5% dessa classe mais alta, que representará o intervalo do 8º decil - 1,8, dessa forma tem-se
(1,9 - 1,8) / 25% = (X - 1,8) / 5% => 0,1*0,05 = 0,25*x - 0,45 => X = 1,82
Se a questão pede a estimativa da função de distribuição de X no ponto Y, ela quer a frequência relativa acumulada desta observação
Freq. Rel. Acu. = Função de Distribuição = f_acumulada / ∑(f_acumulada)