Unsupervised Learning Flashcards
PCA Definition
PcA est une méthode de réduction de la dimensionnalité qui réduit le nombre de variables dans un ensemble de données tout en préservant autant d’informations que possible.
PCA recherche des combinaisons linéaires orthogonales des variables initiales (qui sont centrées et à l’échelle) - ces combinaisons sont connues sous le nom de composants principaux (PC).
3 Avantages PCA
- Réduit overfitting
- Réduit la complexité
PCA peut optimiser le compromis biais-variance et améliorer la précision du modèle car il réduit les dimensions des données et la complexité du modèle - Plus facile de visualiser les données et d’explorer les relations entre les variables,les variables sont fortement corrélées Peut être utilisé sur des variables catégoriques (en utilisant la binarisation)
3 Désavantages PCA
Inconvénients:
- Les variables indépendantes deviennent moins interprétables puisqu’il s’y a des combinaisons linéaires de la variable initiale
- besoin de centrer (normaliser), normaliser et mettre à l’échelle, car sinon les variables avec des variances larges vont avoir plus de poids que les autres.
- L’utilisation de certains PC entraîne une perte d’information
Clustering Définition
L’analyse des clusters divise les observations en sous-ensembles k connus sous le nom de clusters, où les observations partagent des caractéristiques similaires.
k-mean clustering definition
k-means clustering utilise un algorithme qui spécifie le k initial des centroïdes cluster, puis réaffecte des points de données à k clusters jusqu’à atteindre l’optimum global.
L’algorithme trouvera probablement un optimum local, mais pas global. Pour augmenter les chances de trouver l’optimum global, il est recommandé d’exécuter l’algorithme plusieurs fois avec différentes affectations initiales de cluster (n start) .
3 Avantages k-means
- Garanti la convergence
- Généralise les clusters de différentes formes et grandeurs
- Approche simple
5 Désavantages K-means
Inconvénients:
- Nécessite manuellement pré-spécifié # de clusters (k)
- Ne peut s’appliquer qu’aux observations numériques
- À mesure que le nombre de dimensions augmente, le regroupement devient dénué de sens.
- La sélection des centroïdes initiaux est aléatoire – dépendant des valeurs initiales
- Sensible aux valeurs aberrantes
Hierarchical clustering definition
Semblable au clustering k-means, mais au lieu de trouver k clusters distincts, nous construisons une hiérarchie de clusters sans préciser le nombre de clusters à l’avance. Commence par des points de données individuels et les regroupe séquentiellement pour trouver les clusters finaux.
Hierarchical clustering : Bottom up approach
Agglomerative : considérez chaque observation comme son propre cluster, puis regroupez-les progressivement avec des grappes voisines (similaires) jusqu’à ce qu’il ne vous reste plus qu’un cluster
Hierarchical clustering : Top down approach
Diviseur : considérez toutes les observations comme un seul cluster, puis divisez progressivement en sous-grappes de façon récursive
Hierarchical clustering Linkage Complete ( default)
Calculer la distance entre les grappes à l’aide des observations les plus lointaines
Hierarchical clustering
Linkage Single
Calculer les distances entre les grappes à l’aide de l’observation la plus proche.
Que signifie la hauteur dans un dendogram pour hierarchical cluster?
Hauteur : Distance - À quelle distance les clusters sont proches les uns des autres
2 avantages Hierarchical clustering
Avantages:
- Ne nécessite pas pré-spécifié # de clusters
- Dendrogram produit utile pour l’interprétation
3 désavantages Hierarchical clustering
- Plus lent à exécuter
- Sensible aux valeurs aberrantes
- Si la haute dimensionnalité, le dendrogram devient difficile à interpréter