Unsupervised Learning Flashcards

1
Q

PCA Definition

A

PcA est une méthode de réduction de la dimensionnalité qui réduit le nombre de variables dans un ensemble de données tout en préservant autant d’informations que possible.
PCA recherche des combinaisons linéaires orthogonales des variables initiales (qui sont centrées et à l’échelle) - ces combinaisons sont connues sous le nom de composants principaux (PC).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

3 Avantages PCA

A
  1. Réduit overfitting
  2. Réduit la complexité
    PCA peut optimiser le compromis biais-variance et améliorer la précision du modèle car il réduit les dimensions des données et la complexité du modèle
  3. Plus facile de visualiser les données et d’explorer les relations entre les variables,les variables sont fortement corrélées Peut être utilisé sur des variables catégoriques (en utilisant la binarisation)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

3 Désavantages PCA

A

Inconvénients:

  1. Les variables indépendantes deviennent moins interprétables puisqu’il s’y a des combinaisons linéaires de la variable initiale
  2. besoin de centrer (normaliser), normaliser et mettre à l’échelle, car sinon les variables avec des variances larges vont avoir plus de poids que les autres.
  3. L’utilisation de certains PC entraîne une perte d’information
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Clustering Définition

A

L’analyse des clusters divise les observations en sous-ensembles k connus sous le nom de clusters, où les observations partagent des caractéristiques similaires.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

k-mean clustering definition

A

k-means clustering utilise un algorithme qui spécifie le k initial des centroïdes cluster, puis réaffecte des points de données à k clusters jusqu’à atteindre l’optimum global.

L’algorithme trouvera probablement un optimum local, mais pas global. Pour augmenter les chances de trouver l’optimum global, il est recommandé d’exécuter l’algorithme plusieurs fois avec différentes affectations initiales de cluster (n start) .

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

3 Avantages k-means

A
  1. Garanti la convergence
  2. Généralise les clusters de différentes formes et grandeurs
  3. Approche simple
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

5 Désavantages K-means

A

Inconvénients:

  1. Nécessite manuellement pré-spécifié # de clusters (k)
  2. Ne peut s’appliquer qu’aux observations numériques
  3. À mesure que le nombre de dimensions augmente, le regroupement devient dénué de sens.
  4. La sélection des centroïdes initiaux est aléatoire – dépendant des valeurs initiales
  5. Sensible aux valeurs aberrantes
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hierarchical clustering definition

A

Semblable au clustering k-means, mais au lieu de trouver k clusters distincts, nous construisons une hiérarchie de clusters sans préciser le nombre de clusters à l’avance. Commence par des points de données individuels et les regroupe séquentiellement pour trouver les clusters finaux.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hierarchical clustering : Bottom up approach

A

Agglomerative : considérez chaque observation comme son propre cluster, puis regroupez-les progressivement avec des grappes voisines (similaires) jusqu’à ce qu’il ne vous reste plus qu’un cluster

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hierarchical clustering : Top down approach

A

Diviseur : considérez toutes les observations comme un seul cluster, puis divisez progressivement en sous-grappes de façon récursive

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q
Hierarchical clustering 
Linkage Complete ( default)
A

Calculer la distance entre les grappes à l’aide des observations les plus lointaines

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hierarchical clustering

Linkage Single

A

Calculer les distances entre les grappes à l’aide de l’observation la plus proche.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Que signifie la hauteur dans un dendogram pour hierarchical cluster?

A

Hauteur : Distance - À quelle distance les clusters sont proches les uns des autres

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

2 avantages Hierarchical clustering

A

Avantages:

  1. Ne nécessite pas pré-spécifié # de clusters
  2. Dendrogram produit utile pour l’interprétation
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

3 désavantages Hierarchical clustering

A
  1. Plus lent à exécuter
  2. Sensible aux valeurs aberrantes
  3. Si la haute dimensionnalité, le dendrogram devient difficile à interpréter
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

nstart

A

paramètre pour contrôler # de fois algorithme est exécuté (~20 à 50). C’est le # des différents ensembles aléatoires de centres de cluster initial sont testés. Il améliore les chances de trouver un meilleur optimum local.

17
Q

algorithm=”Lloyd”

A

choisit des centres aléatoires et attribue des points à des groupes. Recalculer les centres jusqu’à ce qu’il n’y ait plus de changement.

18
Q

Elbow plot

A

le pourcentage de variance expliqué (ratio de la somme entre les grappes de carrés / somme totale de carrés) Rapport de want le plus proche de 1. Arrêtez quand pas beaucoup de gain que k augmente.