Treinamento Data Prep Flashcards

1
Q

O que é necessário para preparar os dados?

A

1 - Entender o que são os dados
2 - Identificar os possíveis problemas nos dados disponíveis
3 - Relação com o negócio (especialistas) e com o desafio

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Existem 4 tipos de entendimento dos dados. Quais são elas?

A

Descritivo, exploratório, inferencial, Preditivo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quais são os dois tipos de variáveis?

A

Qualitativos / Categóricos e Quantitativos / Numéricos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

O que são variáveis qualitativas / categóricas?

A

Podem ser nominal e ordinal.

A nominal são discretas mão não existe relação de ordem. As possíveis operações são =, !=. Ex: CPF

A ordinal são classes discretas que possuem uma relação de ordem. Possíveis operações são >, =.
Ex: Data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

O que são variáveis quantitativas / numéricos?

A

Podem ser discreto e contínuos.

Discreto assumem valores inteiros. Ex: número de cartões

Contínuos assumem valores em um intervalo, ou seja, assumem valores decimais quebrados. Exemplo: Faturamento.

Há um caso especial que é o Binário. que indica a ocorrência de um evento. Ex: Recebe salário pelo banco?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

O que é a mediana?

A

A mediana ocupa o centro dos dados (de forma ordenada)
Ex: 1,2,3,4,5,6,7,8,9 => Mediana = 5
Ex: 1,2,3,4,5,6,7,8 => Mediana = 4,5

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

O que é média ponderada?

A

É uma forma de calcular a média com pesos diferentes para os elementos da média.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

O que é moda?

A

É o valor que mais aparece dentre um espaço amostral.

Ex: 1,4,3,5,6,7,4,5,4. Moda = 4

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Por que pode ser ruim utilizar apenas a média para analisar os dados?

A

Pode ser ruim pois a média pode ser influenciada por outliers, não dando uma representação real da realidade.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

O que é quartil

A

Na estatística descritiva, um quartil é qualquer um dos três valores que divide o conjunto ordenado de dados em quatro partes iguais, e assim cada parte representa 1/4 da amostra ou população.

Assim, no caso duma amostra ordenada,

primeiro quartil (designado por Q1/4) = quartil inferior = é o valor aos 25% da amostra ordenada = 25º percentil

segundo quartil (designado por Q2/4) = mediana = é o valor até ao qual se encontra 50% da amostra ordenada = 50º percentil, ou 5º decil.

terceiro quartil (designado por Q3/4) = quartil superior = valor a partir do qual se encontram 25% dos valores mais elevados = valor aos 75% da amostra ordenada = 75º percentil

à diferença entre os quartis superior e inferior chama-se amplitude inter-quartil.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qual é uma boa ferramenta para analisar a dispersão dos dados?

A

Boxplot

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

O que é necessário fazer para limpar os dados?

A

1 - Limpar as linhas duplicadas
2 - Remover os valores inconsistentes (idade = 10 anos, estado civil = casado, idade negativa)
3 - Valores ausentes
4 - Ruídos e outliers

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Para que é importante realizar normalização dos atributos?

A

É importante pois alguns atributos podem ter grandezas diferentes como dias vs dinheiro.

Isso pode fazer com que o algoritmo de um peso maior para o atributo de maior valor. A maioria dos atributos não lidam bem com esse tipo de diferença.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Cite exemplos de normalização de atributos?

A

É possível utilizar o Z-Score ou Reescala Linear (valores entre 0 e 1).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Qual a diferença entre escalamento padrão e escalamento robusto.

A

No escalamento padrão o outlier influencia fortemente no posicionamento da média.

Já no escalamento robusto ele tenta suaviar o problema dos outliers.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly