APRENDIZAJE SUPERVISADO Flashcards

Question 1

Q

Aprendizaje supervisado ?

Answer

A

conocido como CLASIFICACIÓN o aprendizaje INDUCTIVO

Question 2

Q

Atributo de clase

Answer

A

es la etiqueta

Question 3

Q

OBjetivos

Answer

A

produccir una función de predicción/clasificacion
predecir etiquetas futuras
f(x) es llamada modelo de clasificación
Es supervisado, porque las etiquetas son dadas.

Question 4

Q

cuando es supervisado o no ?

Answer

A

Si se tienen la etiquetas es SUPERSIVADO si no se tienen la etiquetas es NO SUPERVISADOS

Question 5

Q

HIPOTESIS de Aprendizaje automátizado

Answer

A

Es que los datos de entrenamiento tienen una distribución similar a los datos de prueba, incluyendo los datos futuros.

Question 6

Q

¿Cual es el flujo completo del aprendizaje?

Answer

A

- Entrenamiento
- Aprendizaje
- Modelo
- Prueba
- Precisión

Question 7

Q

¿Qué es un DECISION TREE ?

Answer

A

Es una de las técnicas más usadas para la clasificación.

Question 8

Q

¿Cuántos tipos de nodos poseen ? Detalle cada uno

Answer

A

- Nodos Decisión: Son internos y especifican una pregunta con respecto a un atributo.
- Nodos Hoja: Indican una clase

Question 9

Q

¿Cómo esta construido un DECISION TREE ? (inducción) Explique

Answer

A

Esta construido mediante la partición de los datos, de tal forma que los subconjuntos de datos sean lo más puros posible. La pureza de un conjunto es cuando solo se posee una sola etiqueta.

Question 10

Q

¿Cómo se puede transformar un DECISION TREE en sentencias IF-THEN?

Answer

A

- Cada ruta de la RAIZ hasta la hoja es una regla.
- Todos los nodos de decisión a lo largo del camino forman las condiciones de la regla. El nodo hoja forma la clase.
- Para cada regla, se asocia un valor de confianza y el número de ejemplos de soporte.

Question 11

Q

Minería de reglas de Asociación

Answer

A

Es el intento de buscar todas las reglas que están en cierto intervalo de confiabilidad.

Question 12

Q

¿Cuál es la propiedad más importante de los DECISION TREE ?

Answer

A

Es que el conjunto de reglas resultantes es MUTUAMENTE EXCLUSIVO y EXHAUSTIVO. Cada caso esta cubierto por solo una regla, es decir, satisface las condiciones de la regla.
TB: es una representación mas compacto de los datos.

Question 13

Q

¿Por qué los DECISSION TREE se consideran algortimos GREEDY sin BACKTRACKING?

Answer

A

Una vez que sea creado un nodo de alguna partición pureza, esta no sera vuelta a revisar.

Question 14

Q

Dos funciones de Impureza

Answer

A

Information Gain

- Information Gain Ratio

Question 15

Q

Relación ENTROPIA / PUREZA

Answer

A

Cuando la entropia toma valores pequeños, el conjunto de datos es más puro.

Question 16

Q

Information GAIN

Answer

A

Se calcula la entropía del conjunto de datos entero.
Buscar un atributo que mejor reduzcan la impureza, si se va a utilizar para particionar. v es el número posible que puede tomar el atributo y se escoge el que menor la reduzca.
Normalmente se elige una cota inferior y ahi el algoritmo para.

Question 17

Q

Desventajas de INFORMATION GAIN

Answer

A

Tomando el caso de atributos como los IDS, la partición de los datos sería cero. En este caso la métrica es inútil. (Es extremo pero se da con atributos de muchos valores potenciales)

Question 18

Q

INFORMATION GAIN RATIO

Answer

A

Mejora el sesgo de la métrica anterior normalizando las ganancias.
Utiliza la entropía de los datos con respecto a los valores de cada atributo.

Question 19

Q

DECISION TREE con atributos continuos

Answer

A

Se dividen en intervalos.
Escoger una cota que maximice la ganancia.
En la practica hay r-1 splits posibles.
La cota puede ser el punto medio, o el lado derecho. Si escoge este lado de los datos se garantiza su aparición.

Question 20

Q

OVERFITTING

Answer

A

El aprendizaje no fue efectivo y los modelos no generaliza los datos de buena forma.
Hay overfitting cuando un clasificador C1 es mejor en rendimiento que C2 en los datos de entrenamientos, pero en datos de prueba es lo contrario.

Question 21

Q

PRE-PRUNING

Answer

A

Detiene la exploración del arbol tempranamente, solucionando overfitting.
No sabe que pasará si el árbol se sigue extendiendo.

Question 22

Q

POST-PRUNING

Answer

A

Se detiene la exploración despues de que el arbol fue construido.

Question 23

Q

RULE-PRUNING

Answer

A

La idea es convertir el árbol en un set de reglas.
• El objetivo es eliminar algunas condiciones que hacen las reglas más cortas.
• Las que quedan redundantes ahora se eliminan.
• Por lo general, este nuevo set es mejor, ya que tiene menos chances de hacer overfitting a los datos.
• Pruning también es conocido como generalización ya que hace las reglas más generales.
• Una regla con más condiciones es más específica que una con menos condiciones.
• Las reglas después de la poda, no necesariamente se excluyen mutuamente, y tampoco son exhaustivas.
• Es decir, van a haber casos que van a satisfacer muchas reglas.
• Por eso se establece algún ordenamiento.
• También puede suceder que ninguna regla se satisfaga, para esto normalmente se aplica la clase mayoritaria.

Question 24

Q

Clases desbalanceadas

Answer

A

Los árboles de decisión no se comportan bien cuando uno tiene muchas más instancias de una clase que de otra.
Se puede hacer oversampling de las clases menores.
Hacer ajustes de acuerdo a cuan probable van a ser las clases menores.

Question 25

Q

Evaluación de Clasificadores

Answer

A

• Métricas:
– Accuracy:
– Error rate: es 1 – accuracy. • Evaluación:
– Holdout set: el set de datos es dividido en dos subconjuntos disjuntos : de entrenamiento y de evaluación.

Question 26

Q

Evaluación

Answer

A

El conjunto de prueba también es llamado holdout set.
Este tipo de evaluación se utiliza cuando el conjunto de datos es grande y además, cuando está etiquetado.
• Es importante que los datos de prueba no sean utilizados para entrenar.

Question 27

Q

Multiple random sampling

Answer

A

sirve cuando hay pocos datos y consiste en hacer holdout con random sampling muchas veces y calcular una accuracy promedio.

Question 28

Q

Crossvalidation:

Answer

A

Se utiliza cuando el conjunto de datos es pequeño. Es el método más común. Los datos se dividen en n conjuntos disjuntos de igual tamaño.
• Entonces, n1 conjuntos se utilizan para entrenar y el restante para probar.
• Este procedimiento se ejecuta n veces con cada n conjunto en modo prueba.
• La accuracy final es el promedio de las n accuracies. 5fold y 10fold validations son las más usadas.

Question 29

Q

leaveone out crossvalidation.

Answer

A

• Un caso especial de crossvalidation
• Aquí se deja sólo un ejemplo de prueba y todo
el resto de entrenamiento.
• Sólo sirve para conjuntos de datos pequeños.
• Es decir, es mfold cross validations, donde m es el número de datos.

Question 30

Q

Problemas de accuracy en la evaluación

Answer

A

• Accuracy tiene el problema de que si una de las clases es pequeña, bastaría un sistema que etiquetara todos los ejemplos como la clase mayoritaria y alcanzaría una valor alto en accuracy.

Question 31

Q

M. confusion

Answer

A

La precisión y el recall con respecto a la clase positiva:
precision TP TP/FP
recall TP TP/FN

Question 32

Q

F1score

Answer

A

• Normalmente hay un tradeoff entre precision y recall.
• F1score es la media harmónica entre precision y recall.
• La media harmónica tiene a estar cerca del menor de los dos valores.
• Por ende, para ser alta, esta métrica debe contar con una precisión y un recall altos.
Hay otra métrica: precision and recall
breakeven point.

Question 33

Q

F1 Score en palabras

Answer

A

“mide la efectividad de la recuperación de información con respecto a un usuario que le da veces más importancia al recall que a la precisión”.

Question 34

Q

Breakeven Point

Answer

A

Es el punto donde la precisión y el recall son iguales.
Asume que los casos de prueba pueden ser jerarquizados por el clasificados de acuerdo a su probabilidad de que sean positivos.
En el caso de un árbol de decisión podemos utilizar los valores de confiabilidad.