DataMining - Definitions Flashcards

1
Q

Que es data mining?

A

-Es explorar o analizar datos de forma automatica o semiautomatica para descubrir patrones o reglas.
-Ayuda a responder pregunas del tipo:
Que producto comprara un cliente?
Que caracteristicas tienen los mejores vendedores?
-Se puede aplicar en distintas areas como: Inteligencia, bancos, comercios, medicina, etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Porque se usa data mining?

A

Existe mucha informacion importante, relevante y oportuna que por su gran volumen se hace imposible analizar manualmente.

*	Grandes BD o DW
*	Mayor poder computacional
*	Mayor competencia
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Cuales son los distitnos modos de aplicacion de data mining?

A

Top-down y bottom-up (Testeo de hipotesis vs busqueda de conocimiento)

En la primera, se plantea una hipotesis y se intenta validar con los datos.
En la segunda se intenta descubrir conocimiento sin asumir nada. Se puede hacer de forma directa e indirecta.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Cuales son las diferencias estre la busqueda de conocimiento directo e indirecto?

A

En la busqueda de conocimiento directo se explica el pasado para predecir el futuro.
Ej.: Predecir un valor, predecir la permanencia de un cliente, clasificar algun registro, nivel de seguridad de pago de un solicitante a un credito, etc.

En las busqueda de conocimiento indirecto no existe un campo u objetivo a predecir:
Ej.: Que productos se venden juntos?, commo segmentar los clientes?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Cuales son las etapas de data mining durante un desarrollo TOP-DOWN (testeo de hipotesis)?

A
  • Generar buenas ideas: Claro planteo del problema,
    reuniones conjuntas
  • Determinar los datos para testeo: armar una lista completa de requerimientos para cada hipotesis
    -Ubicar datos
    -Preparar datos
  • Crear el modelo
  • Aplicar el modelo a los datos
  • Evaluar para confirmar o rechazar la hipotesis: Interpretar utilizando conocimiento analitico y del negocio
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Cuales son las estapas de data mining cuando se hace una busqueda de conocimiento de forma directa (es decir se esta buscando explicar o categorizar un dato)?

A
  • Identificar fuentes de datos: confiables, existe DW?, tranformar datos de sistemas OLTP en aptos para el analisis, contar con los datos con el objetivo a predecir.
  • Preparar los datos para el analisis: cuantos, cuantas variables independientes?, agregar campos derivados, dividir datos en tres grupos:
    Entrenamiento, testeo y evaluacion.
  • Construir y entrenar el modelo
  • Testear el modelo
  • Evaluar el modelo
  • Encontrar el porcentaje de error
  • Aplicarlo a nuevos datos
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Cuales son las etapas de data mining cuando se hace una busqueda de conocimiento de forma indirecta (buscar patrones sin clases predefinidas)?

A
  • Identificar fuentes de datos
  • Preparar los datos para el analisis
  • Construir y entrenar el modelo
  • Testear el modelo
  • Evaluar el modelo
  • Aplicarlo a nuevos datos
  • Identificar oportunidades para busqueda de conocimiento directo
  • Generar nueva hipotesis para testear
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Cuales son las distintas tareas que puede realiza un sistema de data mining?

A

Clasificacion: Determinar si un objeto, sujeto o evento pertenece a una clase determinada (target es una variable discreta, 0 o 1 o de una categoria).
Estimacion: Determinar el valor de una variable continua que se puede confirmar en el presente.
Prediccion: Es una clasificacion o prediccion que se confirma en el futuro.
Grupos de afinidad o asociacion: Derterminar si un evento o hecho esta vinculado con la ocurrencia de otro.
Clustering: Determinar grupos homogeneos de objetos, sujetos o eventos en base a sus caracteristicas.
Descripcion: Describe o explica las caracteristicas de un suceso o las reglas que dan origen a un determinado comportamiento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Que es el circulo virtuoso en data mining?

A

Se refiere a entender que el proposito de data mining es aplicar conocimiento que surge de entender a los clientes, mercado y competidores. El foco esta en la accion basada en el conocimiento. Es decir siempre busco resultados accionables.

  1. Identificar necesidades o problemas
  2. Transformar datos en informacion (DM)
  3. Tomar accion en base a la nueva informacion
  4. Medir los resultados
  5. Empezar otra vez

En el centro del circulo tengo: valor agregado.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Cual es la diferencia entre un objetivo medible vs uno ideal?

A

Para definir un objetivo me pregunto, cual es el objetivo, como lo logro y cual es la ventaja de lograrlo.
Los objetivos pueden ser ideales o medibles

Objetivos ideales vs medibles:
- Descubrir patrones interesantes VS Identificar clientes dispuestos a renovar una subscripción.
- Conocer mas de mis clientes VS Rankear clientes segun la propension a esquiar.
- Aprender cosas ùtiles VS Listar productos que se verian afectados si discontinuo la venta de vinos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Como medir la efectividad?

A

Hay muchas herramientas, entre ellas:

Soporte: Cantidad de ocurrencias de un evento en la población.

Confianza: Probabilidad de encontrar la parte derecha de la regla (consecuente) condicionada a que se encuentre la parte izquierda (antecedente).

Lift: medida que indica la performance de una predicción o clasificación de un modelo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly