Aula 01 Flashcards

1
Q

Medidas de Posição Central (ou locação) I

A

Muitas vezes pode ser útil resumir todas as informações em um número. Uma forma utilizada para isso são as medidas de posição, no caso, medidas de tendência central, que darão uma ideia dos valores aproximados em torno do qual as observações se agrupam. Há diversos tipos como mediana, moda, média aritmética, média geométrica e média harmônica

Usando como exemplo o rol

10, 15, 24, 24, 24, 29, 29, 36, 36, 45, 65

Média aritmética (média)

Soma-se todas as observações e divide o somatório pelo número total de observações

Média = (10 + 15 + 24 + 24 +24 + 29 + 29 + 36 + 36 + 45 + 65) / 11 = 30,63

Outra forma de apresentar a mesma média é por meio de atribuição de pesos às observações, por conta das respectivas frequências, nesse caso, multiplica-se cada uma das observações pela respectiva frequência e divide-se pelo total de frequências

Média = ((10*1) + (15*1) + (24*3) + (29*2) + (36*2) + (45*1) + (65*1)) / 11 = 30,63

Pode ser dado como

Média aritmética = Σxi/n

Onde xi é a i-ésima observação de uma série e n o total de observações

Ou para a média com frequências, sendo fi a frequência da i-ésima observação

Média aritmética = Σ(fi*xi)/n = Σ(fi*xi)/Σfi

Média aritmética também é chamado de valor esperado ou expectância E(x)

Média Geométrica

Tira-se a raiz n-ésima do produto de uma série de n elementos

Media geométrica = raiz(^11)(10*15*24*24*24*29*29*36*36*45*65)

Genericamente no caso de n observações

Média geométrica = raiz(^n)(x1*x2*…*xn)

Média Harmônica

Média harmônica = 11 / (1/10 + 1/15+ 1/24+ 1/24+ 1/24+ 1/29+ 1/29+ 1/36+ 1/36+ 1/45+ 1/65)

Genericamente

Média harmônica = n/Σ(1/xi)

Relação entre médias

É possível provar que, para determinado rol de valores

Média aritmética ≥ Média geométrica ≥ Média harmônica

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Medidas de Posição Central (ou locação) II

A

Moda

Definida como a realização mais frequente do conjunto observado

No exemplo, o valor 24 é que aparece a maior quantidade de vezes ao longo da série, sendo este a moda. Uma forma que facilita enxergar a moda é com base na tabela de frequências

Mediana

É a realização que ocupa a posição central da série de observações

  • ATENÇÃO caso as observações estiverem desordenadas, deve primeiro se ordenar elas antes de buscar o valor central

No exemplo, tem-se 11 observações, sendo a mediana, a observação que separa a séria em duas partes iguais, no caso 29

Genericamente, considerando n o número de observações

Mediana = (n+1)/2

Caso o número de observações for par, não há observação que divide a série em duas partes iguais. Nesse caso, tira-se uma média aritmética das duas que dividem

Ex. rol: 10, 15, 24, 24, 24, 29, 29, 36, 36, 45, 65, 80

Mediana = (12+1)/2 = 6,5

Pega-se os valores da sexta e sétima posição e tira-se a média

Mediana = (29+29)/2 = 29

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Propriedades das medidas de posição central

A

Por meio de um operador estatístico pode-se aplicar determinada operação a um conjunto de dados

Ex. chame o conjunto de dados de X, assim, ao aplicar o operador média aritmética

Média aritmética = X(barra) = ∑xi/n

Média(X) = 30,63

Trata-se de forma simplificada de representar a aplicação de uma determinada operação a um conjunto

O operador média responde a determinadas operações, tendo algumas propriedades, são elas

  • se somar/subtrair todas as observações com um determinado valor fixo, tal como x, toda a média terá resultado igual ao anterior à operação mais/menos x
    • ​ex. com base no rol 10, 15, 24, 24, 24, 29, 29, 36, 36, 45, 65

​Somando 10 a cada observação tem-se o novo rol

20, 25, 34, 34, 34, 39, 39, 46, 46, 55, 75

Média = 40,63

​​​​Dessa forma, para uma constante a tem-se

Média (a + X) = X(barra) + a

  • se multiplicar/dividir todas as observações por um determinador valor fixo, tal como x, a média terá resultado igual ao anterior multiplicado/dividido por x
    • ​Ex. mesmo rol anterior multiplicado por 2

​20, 30, 48, 48, 48, 58, 58, 72, 72, 90, 130

Média = 61,27

Para uma constante a

Média (a*X) = X(barra)*a

  • média de uma constante é o valor da própria constante
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Medidas de Dispersão

A

Visam tornar a avaliação do conjunto de dados por meio de estatísticas-resumo mais próximas da realidade. A simples observação da média não diz muita coisa sobre um conjunto de dados

Ex. rol (9,10,50) e rol (22,24)

Ambos possuem média = 23

Não é possivel visualizar o rol somente pelo resultado da média, pois há uma grande variabilidade no primeiro rol, o que não ocorre no segundo. Dessa forma, deve-se encontrar uma medida que mostre o quanto as observações estão desviando da média

A soma dos desvios de uma série em relação à média sempre é igual a zero

Ex. rol (9,10,50)

Chamando cada observação de xi e a média da série de x(barra), calculando o somatório dos desvios com relação à média

∑(xi-x(bar)) = (9-23) + (10-23) + (50-23) = 0

Uma das formas para mensurar o desvio é o desvio médio, no caso, para n observações tem-se

Desvio médio = ∑|xi - x(bar)| / n

Dessa forma, tem-se que

∑|xi - x(bar)| / n = ( |9-23| + |10-23| + |50-23| ) / 3 = (14+13+27)/3 = 18

Outra possibilidade é a medida de dispersão variância

Variância = ∑(xi - x(bar))² / n

Do exemplo tem-se que

∑(xi - x(bar))² / n = ((9-23)² + (10-23)² + (50-23)²)/3 = 364,66

Como as variáveis resultantes estão elevadas ao quadrado, pode causar problema de interpretação, dessa forma, uma outra medida é o desvio padrão, que é a raiz quadrada da variância

Desvio padrão = raiz(^2)(∑(xi - x(bar))² / n)

No exemplo, tem-se

Desvio padrão = 19,06

Sendo mais próximo ao valor do desvio médio, permitindo maior comparação

Uma forma mais fácil para calcular a variância em uma prova é da forma

Variância = média dos quadrados - quadrado da média

Var = MQ - QM

Ex. rol (9,10,50)

Média = 23

Quadrados (81,100,2500)

Média dos quadrados = 893,66

Variância = 893,66 - 529 = 364,66

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Propriedades da variância e do desvio padrão

A
  • se somar/subtrair qualquer valor fixo das observações utilizadas para o cálculo da variância (Var) ou do respectivo desvio padrão (DP),o resultado ficará inalterado
    • ​Ex. rol (9,10,50)

Diminuindo 3 de cada observação

rol (6,7,47)

Média = 20 Var = 364,66

O mesmo pode-se dizer do desvio padrão, pois se trata do quadrado da Var

Dado contante a

Var (a+X) = Var(X)

DP (a+X) = DP(X)

  • se multiplicar/dividir todas observações por determinado valor fixo, tal como x, a variância resultante ficará multiplicada/dividida por , enquanto que o desvio padrão resultante ficará multiplicado/dividido por x
    • ​uma forma de pensar é que variância lembra quadrados enquando desvio padrão lembra raiz da mesma
    • x * DP = raiz(^2)(x² * Var)
    • Ex. multiplicar todas observações por 2

​rol (18,20,100)

Média = 46 Var = 1458,66 DP = 38,19

Dado constante a

Var (a*X) = a²*Var(X)

DP (a*X) = a*DP(X)

  • variância de uma constante pode ser considerada nula

Coeficiente de Variação

O desvio padrão é muito afetado pelo valor absoluto dos dados, o que dificulta a comparação de séries com valores muito diferentes, dessa forma usa-se o coeficiente de variação (cv), dividindo-se o desvio padrão pela respectiva média aritmética, permitindo-se comparações entre desvios padrões de séries com valores muito diferentes

cv = DP (X) / X(bar)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Medidas separatrizes e assimetria

A

Outra forma de visualizar uma distribuição e representá-la é por meio de medidas separatrizes, sendo observações que separam os dados de uma série de forma específica, por meio dos percentis

Percentil de ordem p significa o valor da observação que não é superado por p% das observações da série

  • ex. de dessa medida é a mediana, dividindo o conjunto em 2 partes iguais onde metade das observações possuirá valores menores que ela e metade maiores. A mediana é um percentil de ordem 50
  • outro exemplo é o quartil, que divide as observações em 4 partes iguais
  • outro exemplo é o decis, que dividem a série em 10 partes iguais

Em relação ao quartil, dado

rol 2,3,6,8,9,10,13,15,18,21,23

tem-se o quartil

rol 2,3,6,8,9,10,13,15,18,21,23

1º quartil: 6

2º quartil: 10

3º quartil: 18

Caso o rol fosse composto de 8 elementos

rol 2,3,8,9,13,15,21,23

Da mesma maneira como foi feito na mediana, encontra-se o ponto médio desses pontos (nesse caso, entre 3 e 8; entre 9 e 13; e entre 15 e21)

rol 2,3,5,8,9,11,13,15,18,21,23

  • pode-se também tirar a mediana geral e dessa mediana tirar a mediana de cada parte (meio do meio, etc)

O conceito de quartil é comumente utilizado com o intuito de verificar o grau de simetria de uma distribuição

Distância interquartil ou amplitude interquartil

A distância interquartil (dq) é uma medida da diferença de valores entre o terceiro (q3) e o primeiro quartil (q1)

dq = q3 - q1

Essa medida dá uma ideia do grau de dispersão de uma série, pois quanto maior o resultado, menor é a concentração dos valores da série ao redor da mediana

Distribuição simétrica tem a ver com a distância entre diversos quartis e as observações extremas das séries

  • valores à direita devem ser “semelhantes” aos da esquerda
  • ex. distribuição normal ou gaussiana

Para uma distribuição simétrica ou aproximadamente simétrica, as observações devem respeitar as seguintes condições

  • q2 - 1ª observação = última observação - q2 (“tira-se as pontas”)
  • q2 - q1 = q3 - q2
  • q1 - 1ª observação = última observação - q3
  • distância entre mediana (q2) e q1 ou q3 menores que as distâncias entre os extremos (1ª e última observação) e q1 ou q3

Se os quantis da direita estiverem mais afastados da mediana do que os da esquerda, a distribuição seria assimétrica à direita. A concentração da distribuição ocorre na parte direita. Caso os quantis da esquerda estejam mais afastados, tem-se assimetria à esquerda

O que muda em relação à assimetria da distribuição é o posicionamento da média, mediana e moda (ver fig.)

  • assimetria à esquerda
    • ​média < mediana < moda
  • assimetria à direita
    • moda < mediana < média

Isso ocorre pois

  • moda é o ponto de maior frequência, no topo da curva. Como se está gerando mais ocorrências dos lados, a moda permanece praticamente estática no ponto de maior frequência
  • média, no caso de assimetria à direita, haverá observações com valores muito altos, puxando o valor da média para cima. Ela é a medida mais sensível a valores extremos (moda e mediana não são afetadas por pontos extremos)
  • mediana sempre estará entre a moda e a média

Caso a distribuição seja simétria, tem-se que

  • média = mediana = moda
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Box-plots ou Gráficos em caixa

A

Forma gráfica de representar uma distribuição com base nos quartis e mediana de uma série (ver fig.)

O eixo vertical dispõe os valores da série de dados e a caixa é utilizada para saber o posicionamento da mediana e dos quartis de uma sequência, ajudando a verificar a simetria da distribuição

Além disso, é possível verificar a possibilidade de existirem outliers ou valores atípicos na série, através da indicação de desvios, dados por

  • limite superior = q3 + 1,5*dq
  • limite inferior = q1 - 1,5*dq

Isso significa que qualquer observação em um intervalo de 1,5x a distância interquartil contada a partir do ou 3º quartil, é considerada dentro do normal

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Tabelas de frequências e medidas de posição e dispersão I

A

Frequência acumulada

Ex. suponha pesquisa feita sobre altura de determinada população

Altura || Freq. Absoluta || Freq. Acumulada

1,5 |- 1,6 || 10 || 10

1,6 |- 1,7 || 10 || 20

1,7 |- 1,8 || 5 || 25

1,8 |- 1,9 || 5 || 30

Total || 30 || x

A frequência acumulada indica quantos elementos estão abaixo de determinado valor. Dessa forma, um grupo de 1,5 até 1,6 possui 10 indivíduos, já um grupo de 1,5 até 1,7 terá 20 indivíduos, pois de 1,6 até 1,7 terá outros 10 indivíduos, sendo que a frequência acumulada na última classe coincide com o tamanho da amostra

A frequência acumulada pode ser feito com base nas frequências relativas calculadas para uma série, nesse caso, a acumulada irá identificar qual a porcentagem de elementos que estão abaixo de determinado valor

Ex.

Altura || Freq. Absoluta || Freq. Acumulada

1,5 |- 1,6 || a || 10

1,6 |- 1,7 || b || 20

1,7 |- 1,8 || c || 25

1,8 |- 1,9 || d || 30

Total || e || x

Sabemos que o total será e = 30. Para a próxima classe deve-se subtrair da última classe a frequência acumulada da classe anterior d = 30 - 25 = 5 e assim por diante

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Tabelas de frequências e medidas de posição e dispersão II

A

Medidas de posição e dispersão calculados para dados agrupados em classes

Caso da média

Terá que ser dado um “chute” para o valor representativo de cada classe

  • calcule o ponto médio de cada classe e considere que a classe é representada por este ponto

​ponto médio = (li + ls) / 2

Sendo ls o limite superior e li o limite inferior

Do exemplo anterior tem-se

Altura || Freq. Absoluta

1,55 || 10

1,65 || 10

1,75 || 5

1,85 || 5

Total || 30

Considera-se um chute, pois pode acontecer de que nenhuma das observações coincida com o ponto médio. Para o cálculo usa-se as frequências absolutas ou relativas

Média Aritmética = ∑(fi*xi) / n = ∑(fi*xi) / ∑fi

Média Aritmética = (10*1,55 + 10*1,65 + 5*1,75 + 5*1,85) / 30 ~= 1,66

Caso da variância, desvio padrão e desvio médio

Da mesma forma que a média, calcula-se os pontos médios de cada intervalo e utiliza-os como se fossem a observação representativa da classe e calcula-se a variância e o desvio médio, sendo fi a frequência absoluta da classe e n a ∑fi

Var = ∑[fi * (xi-x(bar))²] / n

Var = MQ - QM

MQ = ∑[((xi)² * fi)] / n

QM = média aritmética

Desvio médio = ∑[fi * |xi-x(bar)|] / n

Var = 10*(1,55-1,66)² + 10*(1,65-1,66)² + 5*(1,75-1,66)² + 5*(1,85-1,66)² / 30 ~= 0,01

Desvio médio = 10*|1,55-1,66| + 10*|1,65-1,66| + 5*|1,75-1,66| + 5*|1,85-1,66| / 30 ~= 0,088

Caso da Moda

Ex.

Altura || Freq. Absoluta

1,5 |- 1,6 || 10

1,6 |- 1,7 || 20

1,7 |- 1,8 || 5

1,8 |- 1,9 || 5

Total || 40

Classe modal é aquela que aparece mais vezes, assim como no conceito de moda no caso de observações não agrupadas em classe

Primeira forma de se encontrar a moda é por meio da moda bruta, de forma a representar um intervalo com base no seu ponto médio, dessa forma, do exemplo tem-se

Altura || Freq. Absoluta

1,55 || 10

1,65 || 20

1,75 || 5

1,85 || 5

Total || 40

A moda é 1,65 pois é a observação que mais ocorre. No entanto, a forma mais coum de se obter o cálculo da moda é por meio da fórmula de Czuber

Moda Czuber = li + h * [(fclasse - fclasse_ant) / ((fclasse - fclasse_ant) + (fclasse - fclasse_post))]

Sendo

li - limite inferior da classe modal

h - amplitude da classe modal

fclasse - frequência da classe modal

fclasse_ant - frequência da classe anterior à classe modal

fclasse - frequência da classe posterior à classe modal

Do exemplo tem-se que a classe modal é 1,65, visto antes, então

Moda Czuber = 1,6 + 0,1 * (20-10) / ((20-10) + (20-5)) = 1,6 + 0,1 * 0,4 = 1,604

Existe também outros 2 jeitos menos frequentes em provas

Moda King = li + h * [(fclasse_post) / (fclasse_post + fclasse_ant)]

Moda de Pearson ~= 3 * Mediana - 2 * média

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Tabelas de frequências e medidas de posição e dispersão III

A

Caso das medidas separatrizes (mediana)

Para encontrar tais valores, usa-se a interpolação linear por ex.

Altura (m) || Freq. Absoluta || Freq. Relativa*100 (%) || Freq. Acumulada

1,5 |- 1,6 || 20 || 20% || 20

1,6 |- 1,7 || 30 || 30% || 50

1,7 |- 1,8 || 25 || 25% || 75

1,8 |- 1,9 || 25 || 25% || 100

Total || 100 || 100% || x

Perceba-se que até 1,7 acumularam-se 50% das observações, sendo, portanto, a mediana

Já o 3º quartil está em 1,8 pois a observação não é superada por 75% da série. No entanto, o 1º decil (10%) não é facilmente encontrado

A ideia da teoria (interpolação da ogiva) se baseia no fato de que há uma regularidade da distribuição dos dados dentro de uma classe, de modo que a quantidade de dados dispostos em determinada seção seja proporcional à sua amplitude

  • ex. se determinada classe acumula 50% das observações com aplitude de 10, 25% do total da série estará acumulado em uma observação que corresponde à amplitude de 5 nesta classe

Portanto, para o exemplo anterior, 20% das observações (segundo decil) corresponde a amplitude de 10cm (1,6-1,5), para obter o acúmulo de 10% das observações, utiliza-se regra de 3

(1,6 - 1,5) / 20% = (1ºdecil - 1,5) / 10% = 0,1*0,5 + 1,5 = 1,55

Outro exemplo, caso se queira calcular o 8º decil estará acima de 80% das observações, sabe-se que estará entre 1,8 - 1,9. Temos que

1,9 - 1,8 representa 25% das observações, e sabemos que o 8º decil estará acima de 80%, ou seja, 75% anteriores (freq. acumulada até então) mais 5% dessa classe mais alta, que representará o intervalo do 8º decil - 1,8, dessa forma tem-se

(1,9 - 1,8) / 25% = (X - 1,8) / 5% => 0,1*0,05 = 0,25*x - 0,45 => X = 1,82

Se a questão pede a estimativa da função de distribuição de X no ponto Y, ela quer a frequência relativa acumulada desta observação

Freq. Rel. Acu. = Função de Distribuição = f_acumulada / ∑(f_acumulada)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly