Análise de Dados Flashcards
População vs Amostra
A população é o conjunto total de objetos ou ocorrência de eventos sobre o qual se realizará o estudo. Já a amostra é um subconjunto representativo do todo.
Tipos de pesquisa.
O LEVANTAMENTO é apenas uma observação das características da população. Já a PESQUISA EXPERIMENTAL permite estabelecer, através da manipulação de variáveis, relações de causa e efeito entre elas.
Variáveis
Podem ser obtidas em qualquer tipo de pesquisa, em uma matriz de dados são as colunas e apresentam os atributos que estão sendo observados.
Nível de mensuração
As variáveis podem ser quantitativas discretas, quantitativas contínuas, qualitativas nominais ou qualitativas ordinais.
Variáveis quantitativas
Discretas vs contínuas
As discretas estão associadas à contagem, ou seja, estão atreladas a números inteiros. Conjunto finito, enumerável de valores. Já as variáveis contínuas, podem assumir valores fracionários, ao estarem atreladas à medidas de velocidade, temperatura… Podem assumir infinitos valores.
Variáveis qualitativas
Nominais vs ordinais
As variáveis qualitativas nominais não podem ser comparadas entre si. Por exemplo, sexo, estado civil. Já as variáveis qualitativas ordinais possuem uma hierarquia entre si. Por exemplo, grau de escolaridade, fundamental, médio e superior.
Nível de Manipulação
Variáveis dependentes vs variáveis independentes
Variáveis independentes podem influenciar no resultado das variáveis dependentes. Um estudo experimental consiste em manipular as variáveis independentes para monitorar o efeito das dependentes.
Possíveis causas de dados ausentes
Erros de entrada em sistemas, entrevistado não quis responder, etc
Os tipos de deleção. A deleção pode ser utilizada no caso de dados ausentes.
Casewise deletion (deleção completa), remove todos os registros de casos em que ocorre a ausência de algum dado. Gera muita perda de informação e pode adicionar viés.
Pairwise delection (deleção parcial). Desconsidera os registros que possuem valores ausentes quando se está realizando operação com a variável que contém a lacuna. Gera uma menor perda de informação, porém é mais complexa de se implementar.
Os tipos de imputação. Que consiste em preencher as lacunas de valores ausentes com valores estimados.
1) Imputação incondicional da média. Tira a média dos demais valores da coluna e imputa aos faltantes.
2) Imputação através da regressão. Utiliza a técnica de modelagem preditiva para prever o valor desconhecido.
3) Imputação de valor aleatório ou 0. Intuitivo.
4) Imputação através da interpolação. A interpolação pode ser única ou múltipla.
A outa maneira de lidar com a ausência de dados além da deleção e imputação é…
A criação de categoria, ou seja, aceitar a ausência dos dados e criar uma categoria própria para a sua existência, de modo a realizar análises considerando a sua existência. Ex. “ausente”, “não respondeu”.
Erros de registro, discrepâncias, inconsistêcias
Similar ao que ocorre na mineração de dados. Erros de cadastro, valores que desafiam o senso comum, valores que destoam do conjunto (outliers), falhas na integração (múltiplas representações para o mesmo tipo de dado), necessidades de conversão.