Aula 00 Flashcards
Estatística
Estatística é a coleção de técnicas utilizadas para coleta, análise e interpretação de dados. Divide-se em
- estatística descritiva (dedutiva)
- descreve um conjunto de dados, ex. analisa-se os dados por meio de gráficos e a partir desta análise, avalia-se os resultados e tiram-se as conclusões
- é a coleta, apresentação, análise e interpretação dos dados numéricos coletados
- estatística inferencial (indutiva)
- nem sempre se conhece o comportamento de uma população (todos elementos com determinada característica), sendo necessário inferir conclusões a partir de amostra (parte não nula da população, mas menor que esta)
- alguns lugares dizem que a amostra deve ser representativa da população, no entanto, não é o mais comum
- com base em uma amostra, irá apresentar, analisar e interpretar os dados coletados
- caso seja observado 100% da população, estaria sendo realizado um censo
Variável
Variável é tudo que não é constante, toda realização de uma característica que pode assumir valores diferentes a cada experimento. Podem ser
-
quantitativa
- valor numérico
-
qualitativa
- qualidade, não numérico
- exceção variáveis dicotômicas (binárias), podem assumir 0 ou 1, se trata de variável qualitativa
- ex. estado civil: casado/solteiro
- qualidade, não numérico
As variáveis qualitativas podem ser divididas em
-
nominais
- aquelas que não é possível ordenar (no sentido de classificar)
-
ordinais
- aquelas que pode ser ordenadas conforme o resultado
As variáveis quantitativas podem ser divididas em
-
discretas
- possui valores inteiros, definidos (ex. número de copos em uma mesa)
- derivam de uma contagem
-
contínuas
- pode assumir infinitos valores (ex. distância)
- derivam de uma mensuração
Frequência e Representação gráfica
Frequência é o número de vezes que uma variável assume determinado valor
Ex. pesquisa sobre ensino em bairro
Ensino | Frequência
fundamental | 400
médio | 300
superior | 300
Total | 1000
- essa forma de representação dos dados (tabela) é chamada de agrupamento simples
- a tabela mostra quantas vezes a variável ensino assume determinados valores, ou seja, a frequência absoluta (pois não leva em conta quanto cada valor assumido representa do total, caso da frequência relativa ou proporção, porcentagem)
- a frequência relativa tem vantagem de permitir comparações entre tabelas com diferentes quantidades de dados analisado para mesma variável
- ex. se a pesquisa for feita com 2400 pessoas (no lugar de 1000), a comparação das frequências absolutas entre as duas tabelas não faz sentido, ao contrário das relativas, comparando-se percentuais
Muitas bancas costumam chamar o gráfico com a barra em pé de gráfico em colunas, e chamando o gráfico em barras quando as colunas estão na horizontal
O gráfico em setores ou “pizza” é bastante utilizado para representação de variáveis qualitativas
O gráfico de dispersão unidimensional funciona com base em pontos sobre os gráficos, visualizaria-se qual a frequência de determinada classe (basicamente se coloca um ponto em relação ao eixo X,Y), podendo ser modificado de forma que não seja necessário incluir o eixo vertical (coloca-se o valor do eixo vertical ao lado do ponto) ou mesmo empilhar o número de pontos correspondente a cada valor (ao invés de 1 ponto, caso exista valores iguais, haveriam múltiplos pontos no mesmo lugar)
Para o caso de variáveis quantitativas discretas, as representações em gráficos são diretas, no entanto, para variáveis contínuas, uma possibilidade é o agrupamento de intervalos de classes, por exemplo
Salários | Frequência | Frequência relativa
700 a 1000 | 30 | 15%
1000 a 2000 | 140 | 70%
mais de 2000 | 30 | 15%
total | 200 | 100%
- cada um dos intervalos é chamado de classe
- no caso, é um exemplo de classes fechadas à esquerda abertas à direita (não contém o elemento final do intervalo, exemplo, a primeira classe vai de 700 a 999) representado como 700 |– 1000 (sendo o traço vertical representando fechado e o sem o traço representando aberto)
- cada classe possui uma amplitude, dada pela diferença entre o limite superior e inferior de cada classe. Para distruibuição com classes de mesma amplitude, pode ser representada como
h = R/k
- sendo h a amplitude, R amplitude total da distribuição e k o número de classes
Para a representação gráfica desses agrupamentos com variáveis contínuas, os gráficos são feitos de forma que o número expresso corresponda ao ponto médio de cada classe
- tal representação causa muita perda de informação, como alternativa, pode-se utilizar um histograma (ao invés do valor médio no eixo, utiliza-se na base do gráfico em barras, a amplitude (intervalo) das classes - ∆i)
- para que cada retângulo no gráfico corresponda à respectiva frequência de cada classe (fi), a altura de cada tem de ter correspondência com a densidade de frequência (dfi), nesse caso não existe o eixo Y
dfi = fi/∆i
- outra forma, mais comum, é que a altura de cada retângulo seja dada pela frequência absoluta ou relativa do intervalo de dados (utiliza-se normalmente o eixo Y) e a base continua sendo o intervalo de cada classe
Outra forma de representação é o polígono de frequências, quando se passa uma linha unindo todos os pontos médios no topo de cada um dos retângulos
Tanto o polígono de frequências como o histograma tratam-se de representações gráficas de uma distribuição de frequências
- dada pela correspondência dos valores encontrados com sua respectiva frequência, indicando como tais valores se distribuem ao longo do total de dados
Diagrama de Ramos e Folhas
Forma alternativa de resumir um conjunto de valores que dá uma idéia de como se dá a distribuição dos mesmos, por exemplo
1 0
2 3 4 5 6
3 1 7
4 12 21
- pega-se o número da esquerda (ramo) e combina-se com cada valor da direita (folha), neste caso, o diagrama informa que a série é composta pelos seguintes valores {10, 23, 24, 25, 26, 31, 37, 412, 421}. Este resultado é outra forma de apresentação de dados, conhecida como rol
- é possível colocar o resultado da forma - Rol: 10; 23; 24; 25; 26; 31; 37; 412; 421 - sendo, neste caso, um rol crescente. Também é possível ordenar em um rol decrescente
- algumas vezes o diagrama pode vir separando o lado esquerdo do direito por uma linha vertical
Muitas vezes pode vir de forma diferente, por exemplo
1 0
2 3 4 5
2 6
3 1
3 7
4 12 21
- neste caso, foi feita uma divisão de ramos de forma que todos algarismos com valores superiores a 5 fossem colocados em ramos diferentes
- não há regra única para composição deste diagrama
- caso haja valores repetidos, estes também entram no rol, por exemplo
1 0 0 1
2 3 5 6
3 11 11 11 12 12 13
O rol será (10 10 11 23 25 26 311 311 311 311 312 312 313)