HC3 Clustering Flashcards
Wat is clusteren?
Kijken of je groepen kan vinden in de gemeten data.
Wat is classificatie?
Dit is het kunnen voorspellen van de een variabele die niet is gemeten.
Wat is een clusteranalyse?
Dit is een diagram waarbij in de kolommen samples staan. En in de rijen staan de genen. De kolommen worden zo geplaatst op basis van een dendogram.
Wat is een dendogram?
Een dendogram geeft een ordening van de data, de rijen die dicht bij elkaar staan lijken op elkaar.
Wat is sample-space?
Bij sample space worden de genen afgebeeld met puntjes in een grafiek.
Sample-space is high dimensional!!
Wat is gene-space?
Bij gene space worden worden de samples afgebeeld met puntjes in een grafiek.
Wat is hierachical clustering
Deze vorm van clustering behoort tot de agglomeratieve cluster.
Hierachical clustering is een herhaling van steeds 2 dezelfde stappen.
Deze stappen zijn eerst het plaatsen van elk data punt zijn eigen cluster. Hierna zoekt het algormitme de twee clusters die het meest op elkaar lijken. Als je deze stappen blijft doorlopen krijg je een denodgram. De hoogte van de dendogram is de afstand tussen de samengevoegde clusters.
Wat is Euclidean distance?
Hierbij bereken je de afstand tussen 2 clusters met behulp van de phytagoras.
Wat is Pearson correlatie?
Je kijkt hierbij niet alleen naar de absolutie amplitude van de genen, maar kijkt ook of relatieve stijgingen overeen komen. Hierbij negeer je dus eigenlijk de amplitude.
Wat is Mixed Pearson correlatie?
Je kijkt nu ook niet meer naar de richting van de stijgingen en dalingen. Een inverse wordt ook geclusterd met de niet inverse.
Wat is single linkage (SL)?
Kijkt naar de kleinste afstand tussen 2 punten in verschillende clusters.
Wat is complete linkage (CL)?
Kijkt naar de grootste afstand tussen 2 punten in verschillende clusters.
Wat is average linkage (AL)?
Kijkt naar de gemiddelde afstand tussen de verschillende clusters.
Wat is ward clustering?
Clustering waarbij de interne variatie binnen elk cluster zo klein mogelijk moet zijn.
Wat is k-means clustering?
Hierbij cluster je op basis van de afstand van een prototype. Hierna bereken je het gemiddelde object binnen elke groep en vorm je hier een nieuw prototype. Dit blijf je doen tot dat er geen verandering meer is in de objecten.
Het kiezen van een eerste willekeurige prototypen is wel van belang aangezien dit tot verschillende resultaten kan leiden.