Treinamento Data Prep Flashcards
O que é necessário para preparar os dados?
1 - Entender o que são os dados
2 - Identificar os possíveis problemas nos dados disponíveis
3 - Relação com o negócio (especialistas) e com o desafio
Existem 4 tipos de entendimento dos dados. Quais são elas?
Descritivo, exploratório, inferencial, Preditivo
Quais são os dois tipos de variáveis?
Qualitativos / Categóricos e Quantitativos / Numéricos
O que são variáveis qualitativas / categóricas?
Podem ser nominal e ordinal.
A nominal são discretas mão não existe relação de ordem. As possíveis operações são =, !=. Ex: CPF
A ordinal são classes discretas que possuem uma relação de ordem. Possíveis operações são >, =.
Ex: Data
O que são variáveis quantitativas / numéricos?
Podem ser discreto e contínuos.
Discreto assumem valores inteiros. Ex: número de cartões
Contínuos assumem valores em um intervalo, ou seja, assumem valores decimais quebrados. Exemplo: Faturamento.
Há um caso especial que é o Binário. que indica a ocorrência de um evento. Ex: Recebe salário pelo banco?
O que é a mediana?
A mediana ocupa o centro dos dados (de forma ordenada)
Ex: 1,2,3,4,5,6,7,8,9 => Mediana = 5
Ex: 1,2,3,4,5,6,7,8 => Mediana = 4,5
O que é média ponderada?
É uma forma de calcular a média com pesos diferentes para os elementos da média.
O que é moda?
É o valor que mais aparece dentre um espaço amostral.
Ex: 1,4,3,5,6,7,4,5,4. Moda = 4
Por que pode ser ruim utilizar apenas a média para analisar os dados?
Pode ser ruim pois a média pode ser influenciada por outliers, não dando uma representação real da realidade.
O que é quartil
Na estatística descritiva, um quartil é qualquer um dos três valores que divide o conjunto ordenado de dados em quatro partes iguais, e assim cada parte representa 1/4 da amostra ou população.
Assim, no caso duma amostra ordenada,
primeiro quartil (designado por Q1/4) = quartil inferior = é o valor aos 25% da amostra ordenada = 25º percentil
segundo quartil (designado por Q2/4) = mediana = é o valor até ao qual se encontra 50% da amostra ordenada = 50º percentil, ou 5º decil.
terceiro quartil (designado por Q3/4) = quartil superior = valor a partir do qual se encontram 25% dos valores mais elevados = valor aos 75% da amostra ordenada = 75º percentil
à diferença entre os quartis superior e inferior chama-se amplitude inter-quartil.
Qual é uma boa ferramenta para analisar a dispersão dos dados?
Boxplot
O que é necessário fazer para limpar os dados?
1 - Limpar as linhas duplicadas
2 - Remover os valores inconsistentes (idade = 10 anos, estado civil = casado, idade negativa)
3 - Valores ausentes
4 - Ruídos e outliers
Para que é importante realizar normalização dos atributos?
É importante pois alguns atributos podem ter grandezas diferentes como dias vs dinheiro.
Isso pode fazer com que o algoritmo de um peso maior para o atributo de maior valor. A maioria dos atributos não lidam bem com esse tipo de diferença.
Cite exemplos de normalização de atributos?
É possível utilizar o Z-Score ou Reescala Linear (valores entre 0 e 1).
Qual a diferença entre escalamento padrão e escalamento robusto.
No escalamento padrão o outlier influencia fortemente no posicionamento da média.
Já no escalamento robusto ele tenta suaviar o problema dos outliers.