Data Science MODULE 6 Flashcards
So wat is die hoof doelwot van k means clustering?
Om clusters to vorm, met die punte daarin baie soortgelyk, maar clusters moet behoorlik van mekaar verskil
Wat se basiese beginsel word gebruik om similarity te meet met k-means clustering
Euclidean distancr between points
Soos met neural networks, wat doen ons met die waardes waarmee ons werk by k-means clustering
Hulle moet skaleer word, dat hulle vergelykbaar is
In basiese beginsels, joe werk die k-menas algoritme
Kies, vir die hoeveelheid gedefinieer , ewekansige punte. Neem dan die gem van die punte naaste aan daardie punt. Die gen is die nuwe centroid. Hou aan met hierdie, tot die waarde nie meer rerig verskil nie
Rule of thum om die hoeveelheid clusters te bepaal?
=sqrt(N/2) waar N die aantal observasies is.
Die aantal clusters moet altyd minder wees as N, en meer as 2
Elbow method - what is distortion? What is inertia?
Average of the squared distances from each of the observations to the specific centroid
Inertia is simply the sum
So hoe word die elbow method gebruik?
Plot distortion/inertia teenoor die aantal clusters. Daar waar dit nie meer regtig verminder nie, is waar ons die lyn trek met die hoeveelheid clusters
Silhouette method vir K-means clustering
Selfde beginsel as met die elbow method, ons soek net nou vir die grootse waarde as n funskie van clusters
Drie van die groot drawbacks met k-means clustering
Die aanvanklike initialisation en ook die hoeveelheid clusters. Ju vind local minima, nie noodwending global minima
K-means probeer die data eweredig versprei
Goed met sferiese areas
Twee initialisation metodes van k-means
Via die init parameter, random en k-means++ wat die intialisation forseer om ver weg van mekaar te begin
Nuwe imports met k-means clustering
Import math
Import seaborn as sns
From sklearn.metrics import silhoutte_score
From sklearn.cluster import KMeans