Tema 3: Analítica Predictiva Flashcards

Question 1

Q

Analítica predictiva

Answer

A

La analítica predictiva proporciona herramientas para estimar aquellos datos de negocio que son desconocidos o inciertos, o que requieren de un proceso manual o costoso para su obtención.

Question 2

Q

Aprendizaje no supervisado

Answer

A

Técnica de entrenamiento donde no se incluye una clase o etiqueta asociada a las variables independientes o datos de interés, sino que se realizan clústeres o asociaciones entre los mismos a partir de características similares

Question 3

Q

Aprendizaje supervisado

Answer

A

Técnica de entrenamiento en la cual se introducen los datos de interés (atributos o variables independientes) asociadas a una etiqueta de clase (variables dependientes)

Question 4

Q

Corpus

Answer

A

El concepto de corpus hace referencia a la colección de textos a analizar durante un proceso de minería de texto. Puede estar formado por diferentes fuentes, entre las que destacan: emails, ficheros XML, páginas web, notas cortas, grabaciones de voz, documentos escritos, etc.

Question 5

Q

Crisp DM

Answer

A

Es un modelo del proceso de minería de datos que describe el enfoque más utilizado por expertos en Data Mining para resolver problemas.

Question 6

Q

Extracción de información

Answer

A

Análisis de documentos para extraer información y alimentar una ontología, que consiste en la definición formal de tipos, propiedades, y relaciones entre entidades en un dominio específico.

Question 7

Q

Knowledge discovery in databases (KDD)

Answer

A

Es un proceso no trivial que identifica patrones validos, previamente desconocidos, potencialmente útiles y fundamentalmente entendibles en los datos.

Question 8

Q

Matriz de Confusión

Answer

A

Es la principal herramienta para evaluar un clasificador. Cada columna contiene el número de predicciones de cada clase, y las filas representan las instancias en la clase real.

Question 9

Q

Minería de datos

Answer

A

Proceso que intenta extraer e identificar patrones, conocimiento, información… a partir de grandes volúmenes de conjuntos de datos, combinando técnicas estadísticas, inteligencia artificial y sistemas de bases de datos.

Question 10

Q

Minería de texto

Answer

A

Proceso semi-automatizado que permite descubrir conocimiento nuevo y útil de fuentes de datos de texto. Para posteriormente, aplicarlo a los objetivos de negocio

Question 11

Q

Natural language processing (NLP)

Answer

A

Conjunto de técnicas, métodos y herramientas que a través de las ciencias de la computación y la lingüística intentan entender, interpretar y manipular el lenguaje humano.

Question 12

Q

N-grama

Answer

A

Un n-grama es una subsecuencia de n elementos de una secuencia dada.

Question 13

Q

Nube de palabras

Answer

A

Una nube de palabras es una representación visual de las palabras que conforman un texto, en donde el tamaño es mayor para las palabras que aparecen con más frecuencia.

Question 14

Q

Social Media Analytics

Answer

A

Análisis sistemático del contenido de redes sociales.

Question 15

Q

Algoritmo PageRank

Answer

A

Algoritmo de Google que fue lanzado en 1999 por los fundadores de la compañía Larry Page y Sergey Brin. La función de este algoritmo era medir la importancia y la calidad de una página web en un rango que iba del 0 al 10, siguiendo una serie de criterios medibles.

Question 16

Q

Curva ROC

Answer

A

Es una representación gráfica de la sensibilidad frente a la especificidad para un sistema clasificador binario según se varía el umbral de discriminación.

Question 17

Q

Data Cleaning

Answer

A

Proceso de limpieza de los datos mediante técnica de imputación de datos faltantes para eliminar inconsistencias en los datos y eliminar el ruido o reducir la variabilidad.

Question 18

Q

Dato categórico

Answer

A

Es un tipo de dato discreto que puede ser nominal(hombre, mujer) u ordinal(desacuerdo, poco de acuerdo y de acuerdo)

Question 19

Q

Term frequency – Inverse document frequency

Answer

A

Tf-idf, frecuencia de término – frecuencia inversa de documento, es una medida numérica que expresa cuán relevante es una palabra para un documento en una colección.

TF = cuenta de las veces que el término aparece en el documento; IDF = re-escala inversamente proporcional al numero de documentos en los que el término aparece.