DataMining - Definitions Flashcards
Que es data mining?
-Es explorar o analizar datos de forma automatica o semiautomatica para descubrir patrones o reglas.
-Ayuda a responder pregunas del tipo:
Que producto comprara un cliente?
Que caracteristicas tienen los mejores vendedores?
-Se puede aplicar en distintas areas como: Inteligencia, bancos, comercios, medicina, etc.
Porque se usa data mining?
Existe mucha informacion importante, relevante y oportuna que por su gran volumen se hace imposible analizar manualmente.
* Grandes BD o DW * Mayor poder computacional * Mayor competencia
Cuales son los distitnos modos de aplicacion de data mining?
Top-down y bottom-up (Testeo de hipotesis vs busqueda de conocimiento)
En la primera, se plantea una hipotesis y se intenta validar con los datos.
En la segunda se intenta descubrir conocimiento sin asumir nada. Se puede hacer de forma directa e indirecta.
Cuales son las diferencias estre la busqueda de conocimiento directo e indirecto?
En la busqueda de conocimiento directo se explica el pasado para predecir el futuro.
Ej.: Predecir un valor, predecir la permanencia de un cliente, clasificar algun registro, nivel de seguridad de pago de un solicitante a un credito, etc.
En las busqueda de conocimiento indirecto no existe un campo u objetivo a predecir:
Ej.: Que productos se venden juntos?, commo segmentar los clientes?
Cuales son las etapas de data mining durante un desarrollo TOP-DOWN (testeo de hipotesis)?
- Generar buenas ideas: Claro planteo del problema,
reuniones conjuntas - Determinar los datos para testeo: armar una lista completa de requerimientos para cada hipotesis
-Ubicar datos
-Preparar datos - Crear el modelo
- Aplicar el modelo a los datos
- Evaluar para confirmar o rechazar la hipotesis: Interpretar utilizando conocimiento analitico y del negocio
Cuales son las estapas de data mining cuando se hace una busqueda de conocimiento de forma directa (es decir se esta buscando explicar o categorizar un dato)?
- Identificar fuentes de datos: confiables, existe DW?, tranformar datos de sistemas OLTP en aptos para el analisis, contar con los datos con el objetivo a predecir.
- Preparar los datos para el analisis: cuantos, cuantas variables independientes?, agregar campos derivados, dividir datos en tres grupos:
Entrenamiento, testeo y evaluacion. - Construir y entrenar el modelo
- Testear el modelo
- Evaluar el modelo
- Encontrar el porcentaje de error
- Aplicarlo a nuevos datos
Cuales son las etapas de data mining cuando se hace una busqueda de conocimiento de forma indirecta (buscar patrones sin clases predefinidas)?
- Identificar fuentes de datos
- Preparar los datos para el analisis
- Construir y entrenar el modelo
- Testear el modelo
- Evaluar el modelo
- Aplicarlo a nuevos datos
- Identificar oportunidades para busqueda de conocimiento directo
- Generar nueva hipotesis para testear
Cuales son las distintas tareas que puede realiza un sistema de data mining?
Clasificacion: Determinar si un objeto, sujeto o evento pertenece a una clase determinada (target es una variable discreta, 0 o 1 o de una categoria).
Estimacion: Determinar el valor de una variable continua que se puede confirmar en el presente.
Prediccion: Es una clasificacion o prediccion que se confirma en el futuro.
Grupos de afinidad o asociacion: Derterminar si un evento o hecho esta vinculado con la ocurrencia de otro.
Clustering: Determinar grupos homogeneos de objetos, sujetos o eventos en base a sus caracteristicas.
Descripcion: Describe o explica las caracteristicas de un suceso o las reglas que dan origen a un determinado comportamiento.
Que es el circulo virtuoso en data mining?
Se refiere a entender que el proposito de data mining es aplicar conocimiento que surge de entender a los clientes, mercado y competidores. El foco esta en la accion basada en el conocimiento. Es decir siempre busco resultados accionables.
- Identificar necesidades o problemas
- Transformar datos en informacion (DM)
- Tomar accion en base a la nueva informacion
- Medir los resultados
- Empezar otra vez
En el centro del circulo tengo: valor agregado.
Cual es la diferencia entre un objetivo medible vs uno ideal?
Para definir un objetivo me pregunto, cual es el objetivo, como lo logro y cual es la ventaja de lograrlo.
Los objetivos pueden ser ideales o medibles
Objetivos ideales vs medibles:
- Descubrir patrones interesantes VS Identificar clientes dispuestos a renovar una subscripción.
- Conocer mas de mis clientes VS Rankear clientes segun la propension a esquiar.
- Aprender cosas ùtiles VS Listar productos que se verian afectados si discontinuo la venta de vinos.
Como medir la efectividad?
Hay muchas herramientas, entre ellas:
Soporte: Cantidad de ocurrencias de un evento en la población.
Confianza: Probabilidad de encontrar la parte derecha de la regla (consecuente) condicionada a que se encuentre la parte izquierda (antecedente).
Lift: medida que indica la performance de una predicción o clasificación de un modelo.