Clasificacion Flashcards

1
Q

Criterio de seleccion de atributo en ID3.

A

Ganancia de informacion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Formula de entropia

A
  • sum [Pi * log2 (Pi)]
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Entropia de un atributo

A

promedio ponderado de la entropia de cada valor posible por la probabilidad de que el atributo tome dicho valor.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Ganancia de informacion

A

Diferencia entre entropia del set de datos y entropia del atributo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Como se evita el overfitting en ID3?

A

Hay que evitar que cada nodo hoja se quede con un solo atributo (caso mas extremo de overfitting). Para esto se setea el hiper-parametro: minbucket, que indica la cantidad minima de registros que debe tener cada hoja al finalizar el algoritmo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Que informacion nos dan las hojas de ID3?

A

Las hojas del arbol generado en ID3 nos dan la probabilidad de cada clase en base a cuantos registros de cada clase hay en el nodo hoja.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Que mejoras introduce C4.5 con respecto a ID3?

A

AAPP:

  • Acepta atributos numericos (para manejarlos establece un umbral para realizar el split, e.g. precio < 1500)
  • Acepta datos con atributos faltantes
  • Permite que los atributos tengan cierto peso en cuyo caso se pondera la ganancia de informacion por el peso (importancia) del atributo para decidir los splits.
  • Poda el arbol una vez creado. Sucede cuando la prediccion que haria en un nodo es igual o mejor a la que haria en sus hojas,
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Como se manejan los atributos numericos en C4.5?

A

Se ordenan los valores numericos y se mira linealmente en que lugar conviene realizar el split para minimizar la entropia del atributo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Random Forests: principio de funcionamiento e hiperparametros.

A

Es un cjto. de arboles de decision en donde cada arbol usa un bootstrap (lo cual evita el overfitting) del set de entrenamiento y un cierto cjto. de atributos tomados al azar (lo que saca a luz cuales son los mas importantes).

Hiper parametros:

  • cantidad de arboles a crear (a mayor cant. de arboles, mejor funciona. Ojo con performane, tho).
  • cantidad de atributos de cada uno
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Explique la distancia RF (Random Forest)

A

Si se quiere conocer la distancia entre dos puntos, se los clasifica a ambos mediante RF. La distancia viene dada por la cantidad de arboles que difieren en su prediccion. Se puede normalizar dividiendo por la cantidad total de arboles.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

A que le debe Naive Bayes su nombre?

A

Bayes: porque se basa en el teorema de Bayes.
Naive: porque considera que los terminos son independientes entre si.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Formula Naive Bayes

A

P(class | document) = P(document | class) P(class)

donde:
P(document | class) = productoria P(wi | class) for word wi in document.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Que problema de implementacion tiene Naive Bayes y como se soluciona?

A

La productoria de P(doc | class) puede dar underflow. Hay que aplicar logaritmo, de forma que la productoria quede como una sumatoria de logs.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Que problema tiene Naive Bayes con las palabras nuevas y como se soluciona?

A

problema de frecuencia cero: las palabras que todavia no existen tienen prob. 0 y por lo tanto anulan todo el calculo. Se soluciona asignandole frecuencia 1 a las palabars nuevas y sumando la cantidad de palabras en el denominador (equivale a sumarle 1 a la frecuencia de todas las palabras).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

En que casos puede llegar a overfittear Naive Bayes y como se soluciona?

A

Si alguna palabra es de rara ocurrencia y aparece solamente en una clase, cada vez que la vea clasificara al doc en cuestion en la clase de dicha palabra.
Para evitar esto se puede ignorar las palabras con frecuencia baja.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Principal virud de Naive Bayes

A

Su simplicidad hace que escale sin problemas a datos masivos.

17
Q

Que es lo que encuentra el algoritmo del Perceptron?

A

Un hiperplano separador.

18
Q

Algoritmo del Perceptron.

A

Se predice la clase mediante wx. Si se predice mal, se actualiza w segun w = w + xy

19
Q

Como conviene procesar los datos en Perceptron para que el mismo converja mas rapido? Como se procede en su modalidad online?

A

Conviene hacer que tengan promedio 0 y std = 1. Si se trabaja online, usar x = 1 + log(x), de forma que si los datos difieren mucho entre si, tal efecto se vea mitigado por el efecto del logaritmo.

20
Q

Perceptron converge siempre?

A

Siempre que las clases sean linealmente separables.

21
Q

Perceptron multiclase: One vs All

A

Se toman varios clasificadores, uno por clase, cada uno con su w. Esto se hace considerando una sola clase como la correcta, mientras que el resto se considera como una sola gran clase. Finalmente, se clasifica al punto en la clase cuyo valor w*x haya sido mayor.

22
Q

Perceptron multiclase: One vs One.

A

Se aplica perceptron binario a cada par de clases posibles. Se clasifica un nuevo punto con todos los perceptrones y finalmente se lo clasifica en la clase que mas triunfos obtuvo entre todos los perceptrones.

23
Q

Pros vs Cons Perceptron multiclase: One-All vs One-One

A

One-One es mucho mas robusto, pero es mas pesado porque la cantidad de clasificadores que tiene que construir es combinatoria, por lo que se puede volver inviable rapidamente.

24
Q

Similitudes y diferencias: Perceptron vs SVM

A

Ambos buscan un hiperplano separador.

Perceptron encuentra un hiperplano; SVM encuentra el mejor hiperplano.

25
Q

Que son los suppor vectors en SVM y que cantidad deberia haber?

A

Dado un hiperplano separador, hay una distancia minima hasta el primer punto de cada clase. Los support vectors son los puntos que quedan sobre dichos margenes.

Es necesaria una cantidad n + 1, donde n indica la cantidad de dimensiones de los vectores.

26
Q

Que es lo que diferencia The Hasing trick de Perceptron y SVM y sobre que teorema se basa?

A

Permite clasificar clases que no son linealmente separables. Se basa en el teorema de Cover, que dice que dado un set de datos no linealmente separable, es posible, mediante alguna proyeccion no lineal, pasar a tener un set de datos linealmente separable con una muy alta probabilidad.