Clase 7 - Aprendizaje no supervisado Flashcards
Diferencia con aprendizaje supervisado.
No conocemos los valores de la salida deseada: no hay atributo de salida.
Aprendizaje no supervisado:
Aprendizaje por agrupación y asociativo.
Motivación:
- Encontrar patrones en los datos.
- Agrupar los individuos
- Identificar instancias de prototipos.
Modelos no supervisados.
- Tenemos conjunto de entrada, pero no conocemos el conjunto de salida.
- Definición de criterios: similitud, grupos balanceados, etc.
Técnica de clustering
Agrupar conjuntos con elementos similares
- Generación de jerarquías.
Importante: decidir el número de grupos que vamos a generar.
Aplicaciones
Réplica estratificada de un índice bursátil.
Identificación de cambios en relaciones estructurales del mercado (evolución de ratios de cotización entre activos) -> identificación de outliers.
Algoritmo agrupación con k-medias
Asignación de un cluster a cada instancia y buscar un centroide o prototipo (representado por la media/punto medio) que represente al grupo.
- Proceso iterativo:
- asignar k centroides aleatoriamente a k instancias.
- Asignar a cada instancia el cluster más cercano según medida de distancia.
- Actualización: recalcular el centroide del cluster haciendo el punto medio de todos los atributos.
- Útil para algoritmos de discretización de señales analógicas.
Agrupación con k-medoids
Similar a k-medias, pero los centroides son instancias reales.
Procedimiento PAM: Partitoning around medoids
- Busca minimizar la distancia media de todas las instancias del cluster.
Validación en clustering
- Verificar si los clusters encontrados representan estructuras reales de los datos.
- Comparar el resultado de diferentes algoritmos de clustering
- Determinar el número de clusters a utilizar en k-medias
- Minimización de la distorsión media de los ejemplos a su centroide.
Validación Silhoutte:
Medir la similitud de los miembros de su cluster comparado con la similitud a las instancias de otros clusters.
Selección del número de clusters.
Regla de oro: k = sqrt(n/2)
n==numero de ejemplos
Técnicas aglomerativas.
Se utilizan para generar jerarquía de grupos
- Se crean árboles llamados dendogramas.
- Se calcula la distancia entre todos los pares de ejemplos.
- Se unen los dos más cercanos y se consideran como ejemplo único.
Algoritmo de conjuntos más frecuentes (aprendizaje asociativo)
Dados ejemplos no etiquetados, determinar subconjuntos que son más frecuentes.
Ej: análisis de carros de compra
Algoritmo a priori
Encontrar en el conjunto de individuos todos los items que aparecen en al menos un S% de los carros.
- Encontrar todos los pares de items.
Reglas de asociación (aplicación práctica de los algoritmos)
Se puede usar como entrada el aprendizaje de conjuntos más frecuentes.