2. Data Pre-processing Flashcards

Question 1

Q

Types/Techniques of Data Preprocessing

Answer

A

Aggregation
Sampling (Simple random, with replacement and stratified)
Dimensionality reduction
Discretization + Binarization
Attribute Transformation (normalization, standardization)
Attribute Subset Selection
Attribute Creation

( Data visualization for relationship visualization )

Question 2

Q

Aggregation purpose

Answer

A

change of scale
data reduction
data variability reduction

Question 3

Q

Sampling purpose

Answer

A

Reduce time and cost associated with re-sampling the full data set
== data reduction

Question 4

Q

Sampling techniques

Answer

A

Simple random sampling
Replacement
Stratified (split into partitions)

Question 5

Q

Discretization purpose

Answer

A

Change of scale

Question 6

Q

Binarization purpose

Answer

A

Change of scale

Question 7

Q

Attribute transformation purpose

Answer

A

Change of scale

Mapping of complete values
e.g. simple functions: log(x), |x|, e^x, x^k, normalization, standardization

Question 8

Q

Dimensionality reduction purpose

Answer

A

Reduce time and memory costs for data mining algorithms
Remove irrelevant features (noise)
Makes visualization easier

Example: PCA

Question 9

Q

Dimensionality reduction techniques

Answer

A

Principle Component Analysis (PCA)
Attribute Subset Selection (if data set contains irrelevant or redundant/duplicate information)

Question 10

Q

Attribute creation purpose

Answer

A

to Capture important information better

( Map attributes on newly created ones )

Question 11

Q

Data visualization techniques

Answer

A

Box plot: Percentiles + outliers
Scatter plot: relationship analysis (2D 3D)
Mean graph: relationship analysis (categorical)
Matrix plot: relationship analysis (often normalized to prevent domination)
Parallel Coordinates (each object is a line): relationship analysis (=> higher D)

2. Data Pre-processing Flashcards

(11 cards)