Canasta de mercado Flashcards
Cual es el objetivo de los modelos conocidos como canasta de mercado?
Descubrir patrones a partir de transacciones almacenadas que indican que productos son comprados con otros productos.
En canasta de mercado, que son las reglas de asociación?
Son las reglas resultantes, deben analizarse y clasificarse en: Accionables, Triviales o Inexplicables
- Las accionables sirven para tomar decisiones.
- Las triviales son reglas obvias.
- Las inexplicables son reglas en las que no se toman acciones.
En canasta de mercado, que es la taxonomia y los items virtuales?
Taxonomia: es una jerarquia, un grupo de productos.
Items virtuales: Son items que no aparecen en la taxonomia del producto como por ejemplo el sexo de una persona, la edad o el horario de la compra.
En canasta de mercado que es el prunning?
Tecnica para eliminar reglas poco utiles.
Que algoritmos hay en Canasta de Mercado?
Existen dos formas de crear las reglas de asociacion. Con generacion de candidatos (APRORI ) y sin generacion de candidatos con FP-Tree
Como se miden la calidad de las reglas en canasta de mercado?
Para evaluar la calidad de las reglas se utilizan las medidas de confianza, soporte y Lift.
Soporte (Apoyo): Porcenaje de las transacciones que cumplen con una regla.
Por ej. si compra soda entonces lleva jugo:
p(soda y jugo) = 2/5 = 40%
Confianza : Es una proporcion de las transacciones en las que se cumple una regla. Por ej: p(soda y jugo)/p(soda): 2/3=0.66= 66%
Lift: Numero de transaccione que soportan una regla dividido el numero de transacciones esperado. Por ej: p(soda y jugo)/ p(soda) * p(jugo) = 0.4/.06*0.8 = 0.83.
Cuando lift es menor que 1, la regla es mala.
Se debe ver la negacion de la regla si p entonces no 1 (en el ej. si compra soda entonces no lleva jugo)
Cuales son las ventajas y desventajas del modelo de canasta de mercado?
Ventajas:
* Resultado entendible
* Util para Data mining indirecto
* Trabaja con datos de longitud variable
* Bajo nivel de computo
Desventajas:
* Crecimiento exponencial de computo y datos
* Soporte limitado para atributo de datos
* Los items correctos son dificiles de determinar
* Los items poco frecuentes son problematicos