Data Quality & Proximinity Measurement Flashcards

Question 1

Q

Noise

Answer

A

Random and unpredictable variation in the data that is not related to the underlying pattern or signal that the model is trying to learn.

Question 2

Q

Outliers

Answer

A

Data objects with characteristics that are considerably different than most of the other data objects in the data set.

Question 3

Q

Missing values

Answer

A

The absence of a particular value in a dataset

Question 4

Q

2 Reason for Missing Values

Answer

A

Information is not collected.
Attributes may not be applicable to all cases.

Question 5

Q

4 Way to Handling Missing Values

Answer

A

Eliminate the attribute altogether - column

Eliminate instances/objects - row

Replace missing values.
Statistical methods - Median for age
Sophisticated methods - Regression imputation, KNN imputation

Prediction of missing values.

Question 6

Q

Data Cleaning

Answer

A

Process of dealing with duplicate data issues.

Question 7

Q

Proximity Measures

Answer

A

Mathematical metrics used to determine the similarity or distance between two data points in feature space.

Question 8

Q

2 Distance measures used in clustering algorithms

Answer

A

K-means clustering
Hierarchical clustering,

Question 9

Q

2 Distance measures used in classification algorithms

Answer

A

K-nearest neighbors (KNN)
Hierarchical Clustering.

Question 10

Q

4 Way to Calculate Dissimilarity (Distance)

Answer

A

Manhattan Distance / Taxicab / City block / L1 norm
Euclidean Distance
Minkowski Distance
Mahalanobis Distance

Question 11

Q

4 Way to Calculate Similarity Measurement

Answer

A

Simple Matching Coefficient (SMC)
Jaccard Coefficients
Cosine Similarity
Correlation
Drawback - Cannot detect non-linearity

Data Quality & Proximinity Measurement Flashcards

(11 cards)