Tema 3: Analítica Predictiva Flashcards

1
Q

Analítica predictiva

A

La analítica predictiva proporciona herramientas para estimar aquellos datos de negocio que son desconocidos o inciertos, o que requieren de un proceso manual o costoso para su obtención.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Aprendizaje no supervisado

A

Técnica de entrenamiento donde no se incluye una clase o etiqueta asociada a las variables independientes o datos de interés, sino que se realizan clústeres o asociaciones entre los mismos a partir de características similares

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Aprendizaje supervisado

A

Técnica de entrenamiento en la cual se introducen los datos de interés (atributos o variables independientes) asociadas a una etiqueta de clase (variables dependientes)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Corpus

A

El concepto de corpus hace referencia a la colección de textos a analizar durante un proceso de minería de texto. Puede estar formado por diferentes fuentes, entre las que destacan: emails, ficheros XML, páginas web, notas cortas, grabaciones de voz, documentos escritos, etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Crisp DM

A

Es un modelo del proceso de minería de datos que describe el enfoque más utilizado por expertos en Data Mining para resolver problemas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Extracción de información

A

Análisis de documentos para extraer información y alimentar una ontología, que consiste en la definición formal de tipos, propiedades, y relaciones entre entidades en un dominio específico.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Knowledge discovery in databases (KDD)

A

Es un proceso no trivial que identifica patrones validos, previamente desconocidos, potencialmente útiles y fundamentalmente entendibles en los datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Matriz de Confusión

A

Es la principal herramienta para evaluar un clasificador. Cada columna contiene el número de predicciones de cada clase, y las filas representan las instancias en la clase real.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Minería de datos

A

Proceso que intenta extraer e identificar patrones, conocimiento, información… a partir de grandes volúmenes de conjuntos de datos, combinando técnicas estadísticas, inteligencia artificial y sistemas de bases de datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Minería de texto

A

Proceso semi-automatizado que permite descubrir conocimiento nuevo y útil de fuentes de datos de texto. Para posteriormente, aplicarlo a los objetivos de negocio

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Natural language processing (NLP)

A

Conjunto de técnicas, métodos y herramientas que a través de las ciencias de la computación y la lingüística intentan entender, interpretar y manipular el lenguaje humano.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

N-grama

A

Un n-grama es una subsecuencia de n elementos de una secuencia dada.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Nube de palabras

A

Una nube de palabras es una representación visual de las palabras que conforman un texto, en donde el tamaño es mayor para las palabras que aparecen con más frecuencia.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Social Media Analytics

A

Análisis sistemático del contenido de redes sociales.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Algoritmo PageRank

A

Algoritmo de Google que fue lanzado en 1999 por los fundadores de la compañía Larry Page y Sergey Brin. La función de este algoritmo era medir la importancia y la calidad de una página web en un rango que iba del 0 al 10, siguiendo una serie de criterios medibles.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Curva ROC

A

Es una representación gráfica de la sensibilidad frente a la especificidad para un sistema clasificador binario según se varía el umbral de discriminación.

17
Q

Data Cleaning

A

Proceso de limpieza de los datos mediante técnica de imputación de datos faltantes para eliminar inconsistencias en los datos y eliminar el ruido o reducir la variabilidad.

18
Q

Dato categórico

A

Es un tipo de dato discreto que puede ser nominal(hombre, mujer) u ordinal(desacuerdo, poco de acuerdo y de acuerdo)

19
Q

Term frequency – Inverse document frequency

A

Tf-idf, frecuencia de término – frecuencia inversa de documento, es una medida numérica que expresa cuán relevante es una palabra para un documento en una colección.

TF = cuenta de las veces que el término aparece en el documento; IDF = re-escala inversamente proporcional al numero de documentos en los que el término aparece.