Data Science MODULE 6 Flashcards

Question 1

Q

So wat is die hoof doelwot van k means clustering?

Answer

A

Om clusters to vorm, met die punte daarin baie soortgelyk, maar clusters moet behoorlik van mekaar verskil

Question 2

Q

Wat se basiese beginsel word gebruik om similarity te meet met k-means clustering

Answer

A

Euclidean distancr between points

Question 3

Q

Soos met neural networks, wat doen ons met die waardes waarmee ons werk by k-means clustering

Answer

A

Hulle moet skaleer word, dat hulle vergelykbaar is

Question 4

Q

In basiese beginsels, joe werk die k-menas algoritme

Answer

A

Kies, vir die hoeveelheid gedefinieer , ewekansige punte. Neem dan die gem van die punte naaste aan daardie punt. Die gen is die nuwe centroid. Hou aan met hierdie, tot die waarde nie meer rerig verskil nie

Question 5

Q

Rule of thum om die hoeveelheid clusters te bepaal?

Answer

A

=sqrt(N/2) waar N die aantal observasies is.
Die aantal clusters moet altyd minder wees as N, en meer as 2

Question 6

Q

Elbow method - what is distortion? What is inertia?

Answer

A

Average of the squared distances from each of the observations to the specific centroid
Inertia is simply the sum

Question 7

Q

So hoe word die elbow method gebruik?

Answer

A

Plot distortion/inertia teenoor die aantal clusters. Daar waar dit nie meer regtig verminder nie, is waar ons die lyn trek met die hoeveelheid clusters

Question 8

Q

Silhouette method vir K-means clustering

Answer

A

Selfde beginsel as met die elbow method, ons soek net nou vir die grootse waarde as n funskie van clusters

Question 9

Q

Drie van die groot drawbacks met k-means clustering

Answer

A

Die aanvanklike initialisation en ook die hoeveelheid clusters. Ju vind local minima, nie noodwending global minima
K-means probeer die data eweredig versprei
Goed met sferiese areas

Question 10

Q

Twee initialisation metodes van k-means

Answer

A

Via die init parameter, random en k-means++ wat die intialisation forseer om ver weg van mekaar te begin

Question 11

Q

Nuwe imports met k-means clustering

Answer

A

Import math
Import seaborn as sns
From sklearn.metrics import silhoutte_score
From sklearn.cluster import KMeans