APRENDIZAJE SUPERVISADO Flashcards

1
Q

Aprendizaje supervisado ?

A

conocido como CLASIFICACIÓN o aprendizaje INDUCTIVO

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Atributo de clase

A

es la etiqueta

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

OBjetivos

A
  • produccir una función de predicción/clasificacion
  • predecir etiquetas futuras
  • f(x) es llamada modelo de clasificación
  • Es supervisado, porque las etiquetas son dadas.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

cuando es supervisado o no ?

A

Si se tienen la etiquetas es SUPERSIVADO si no se tienen la etiquetas es NO SUPERVISADOS

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

HIPOTESIS de Aprendizaje automátizado

A

Es que los datos de entrenamiento tienen una distribución similar a los datos de prueba, incluyendo los datos futuros.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

¿Cual es el flujo completo del aprendizaje?

A
    • Entrenamiento
    • Aprendizaje
    • Modelo
    • Prueba
    • Precisión
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

¿Qué es un DECISION TREE ?

A

Es una de las técnicas más usadas para la clasificación.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

¿Cuántos tipos de nodos poseen ? Detalle cada uno

A
    • Nodos Decisión: Son internos y especifican una pregunta con respecto a un atributo.
    • Nodos Hoja: Indican una clase
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

¿Cómo esta construido un DECISION TREE ? (inducción) Explique

A

Esta construido mediante la partición de los datos, de tal forma que los subconjuntos de datos sean lo más puros posible. La pureza de un conjunto es cuando solo se posee una sola etiqueta.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

¿Cómo se puede transformar un DECISION TREE en sentencias IF-THEN?

A
    • Cada ruta de la RAIZ hasta la hoja es una regla.
    • Todos los nodos de decisión a lo largo del camino forman las condiciones de la regla. El nodo hoja forma la clase.
    • Para cada regla, se asocia un valor de confianza y el número de ejemplos de soporte.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Minería de reglas de Asociación

A

Es el intento de buscar todas las reglas que están en cierto intervalo de confiabilidad.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

¿Cuál es la propiedad más importante de los DECISION TREE ?

A

Es que el conjunto de reglas resultantes es MUTUAMENTE EXCLUSIVO y EXHAUSTIVO. Cada caso esta cubierto por solo una regla, es decir, satisface las condiciones de la regla.
TB: es una representación mas compacto de los datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

¿Por qué los DECISSION TREE se consideran algortimos GREEDY sin BACKTRACKING?

A

Una vez que sea creado un nodo de alguna partición pureza, esta no sera vuelta a revisar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Dos funciones de Impureza

A
  • Information Gain

- Information Gain Ratio

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Relación ENTROPIA / PUREZA

A

Cuando la entropia toma valores pequeños, el conjunto de datos es más puro.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Information GAIN

A
  • Se calcula la entropía del conjunto de datos entero.
  • Buscar un atributo que mejor reduzcan la impureza, si se va a utilizar para particionar. v es el número posible que puede tomar el atributo y se escoge el que menor la reduzca.
  • Normalmente se elige una cota inferior y ahi el algoritmo para.
17
Q

Desventajas de INFORMATION GAIN

A
  • Tomando el caso de atributos como los IDS, la partición de los datos sería cero. En este caso la métrica es inútil. (Es extremo pero se da con atributos de muchos valores potenciales)
18
Q

INFORMATION GAIN RATIO

A
  • Mejora el sesgo de la métrica anterior normalizando las ganancias.
  • Utiliza la entropía de los datos con respecto a los valores de cada atributo.
19
Q

DECISION TREE con atributos continuos

A
  • Se dividen en intervalos.
  • Escoger una cota que maximice la ganancia.
  • En la practica hay r-1 splits posibles.
  • La cota puede ser el punto medio, o el lado derecho. Si escoge este lado de los datos se garantiza su aparición.
20
Q

OVERFITTING

A
  • El aprendizaje no fue efectivo y los modelos no generaliza los datos de buena forma.
  • Hay overfitting cuando un clasificador C1 es mejor en rendimiento que C2 en los datos de entrenamientos, pero en datos de prueba es lo contrario.
21
Q

PRE-PRUNING

A
  • Detiene la exploración del arbol tempranamente, solucionando overfitting.
  • No sabe que pasará si el árbol se sigue extendiendo.
22
Q

POST-PRUNING

A
  • Se detiene la exploración despues de que el arbol fue construido.
23
Q

RULE-PRUNING

A

La idea es convertir el árbol en un set de reglas.
• El objetivo es eliminar algunas condiciones que hacen las reglas más cortas.
• Las que quedan redundantes ahora se eliminan.
• Por lo general, este nuevo set es mejor, ya que tiene menos chances de hacer overfitting a los datos.
• Pruning también es conocido como generalización ya que hace las reglas más generales.
• Una regla con más condiciones es más específica que una con menos condiciones.
• Las reglas después de la poda, no necesariamente se excluyen mutuamente, y tampoco son exhaustivas.
• Es decir, van a haber casos que van a satisfacer muchas reglas.
• Por eso se establece algún ordenamiento.
• También puede suceder que ninguna regla se satisfaga, para esto normalmente se aplica la clase mayoritaria.

24
Q

Clases desbalanceadas

A
  • Los árboles de decisión no se comportan bien cuando uno tiene muchas más instancias de una clase que de otra.
  • Se puede hacer oversampling de las clases menores.
  • Hacer ajustes de acuerdo a cuan probable van a ser las clases menores.
25
Q

Evaluación de Clasificadores

A

• Métricas:
– Accuracy:
– Error rate: es 1 – accuracy. • Evaluación:
– Holdout set: el set de datos es dividido en dos sub­conjuntos disjuntos : de entrenamiento y de evaluación.

26
Q

Evaluación

A

El conjunto de prueba también es llamado holdout set.
Este tipo de evaluación se utiliza cuando el conjunto de datos es grande y además, cuando está etiquetado.
• Es importante que los datos de prueba no sean utilizados para entrenar.

27
Q

Multiple random sampling

A

sirve cuando hay pocos datos y consiste en hacer holdout con random sampling muchas veces y calcular una accuracy promedio.

28
Q

Cross­validation:

A

Se utiliza cuando el conjunto de datos es pequeño. Es el método más común. Los datos se dividen en n conjuntos disjuntos de igual tamaño.
• Entonces, n­1 conjuntos se utilizan para entrenar y el restante para probar.
• Este procedimiento se ejecuta n veces con cada n conjunto en modo prueba.
• La accuracy final es el promedio de las n accuracies. 5­fold y 10­fold validations son las más usadas.

29
Q

leave­one out cross­validation.

A

• Un caso especial de cross­validation
• Aquí se deja sólo un ejemplo de prueba y todo
el resto de entrenamiento.
• Sólo sirve para conjuntos de datos pequeños.
• Es decir, es m­fold cross validations, donde m es el número de datos.

30
Q

Problemas de accuracy en la evaluación

A

• Accuracy tiene el problema de que si una de las clases es pequeña, bastaría un sistema que etiquetara todos los ejemplos como la clase mayoritaria y alcanzaría una valor alto en accuracy.

31
Q

M. confusion

A

La precisión y el recall con respecto a la clase positiva:
precision TP TP/FP
recall TP TP/FN

32
Q

F1­score

A

• Normalmente hay un trade­off entre precision y recall.
• F1­score es la media harmónica entre precision y recall.
• La media harmónica tiene a estar cerca del menor de los dos valores.
• Por ende, para ser alta, esta métrica debe contar con una precisión y un recall altos.
Hay otra métrica: precision and recall
breakeven point.

33
Q

F1 Score en palabras

A

“mide la efectividad de la recuperación de información con respecto a un usuario que le da veces más importancia al recall que a la precisión”.

34
Q

Breakeven Point

A
  • Es el punto donde la precisión y el recall son iguales.
  • Asume que los casos de prueba pueden ser jerarquizados por el clasificados de acuerdo a su probabilidad de que sean positivos.
  • En el caso de un árbol de decisión podemos utilizar los valores de confiabilidad.