Clasificacion Flashcards
Criterio de seleccion de atributo en ID3.
Ganancia de informacion
Formula de entropia
- sum [Pi * log2 (Pi)]
Entropia de un atributo
promedio ponderado de la entropia de cada valor posible por la probabilidad de que el atributo tome dicho valor.
Ganancia de informacion
Diferencia entre entropia del set de datos y entropia del atributo
Como se evita el overfitting en ID3?
Hay que evitar que cada nodo hoja se quede con un solo atributo (caso mas extremo de overfitting). Para esto se setea el hiper-parametro: minbucket, que indica la cantidad minima de registros que debe tener cada hoja al finalizar el algoritmo.
Que informacion nos dan las hojas de ID3?
Las hojas del arbol generado en ID3 nos dan la probabilidad de cada clase en base a cuantos registros de cada clase hay en el nodo hoja.
Que mejoras introduce C4.5 con respecto a ID3?
AAPP:
- Acepta atributos numericos (para manejarlos establece un umbral para realizar el split, e.g. precio < 1500)
- Acepta datos con atributos faltantes
- Permite que los atributos tengan cierto peso en cuyo caso se pondera la ganancia de informacion por el peso (importancia) del atributo para decidir los splits.
- Poda el arbol una vez creado. Sucede cuando la prediccion que haria en un nodo es igual o mejor a la que haria en sus hojas,
Como se manejan los atributos numericos en C4.5?
Se ordenan los valores numericos y se mira linealmente en que lugar conviene realizar el split para minimizar la entropia del atributo.
Random Forests: principio de funcionamiento e hiperparametros.
Es un cjto. de arboles de decision en donde cada arbol usa un bootstrap (lo cual evita el overfitting) del set de entrenamiento y un cierto cjto. de atributos tomados al azar (lo que saca a luz cuales son los mas importantes).
Hiper parametros:
- cantidad de arboles a crear (a mayor cant. de arboles, mejor funciona. Ojo con performane, tho).
- cantidad de atributos de cada uno
Explique la distancia RF (Random Forest)
Si se quiere conocer la distancia entre dos puntos, se los clasifica a ambos mediante RF. La distancia viene dada por la cantidad de arboles que difieren en su prediccion. Se puede normalizar dividiendo por la cantidad total de arboles.
A que le debe Naive Bayes su nombre?
Bayes: porque se basa en el teorema de Bayes.
Naive: porque considera que los terminos son independientes entre si.
Formula Naive Bayes
P(class | document) = P(document | class) P(class)
donde:
P(document | class) = productoria P(wi | class) for word wi in document.
Que problema de implementacion tiene Naive Bayes y como se soluciona?
La productoria de P(doc | class) puede dar underflow. Hay que aplicar logaritmo, de forma que la productoria quede como una sumatoria de logs.
Que problema tiene Naive Bayes con las palabras nuevas y como se soluciona?
problema de frecuencia cero: las palabras que todavia no existen tienen prob. 0 y por lo tanto anulan todo el calculo. Se soluciona asignandole frecuencia 1 a las palabars nuevas y sumando la cantidad de palabras en el denominador (equivale a sumarle 1 a la frecuencia de todas las palabras).
En que casos puede llegar a overfittear Naive Bayes y como se soluciona?
Si alguna palabra es de rara ocurrencia y aparece solamente en una clase, cada vez que la vea clasificara al doc en cuestion en la clase de dicha palabra.
Para evitar esto se puede ignorar las palabras con frecuencia baja.