Tema 3: Analítica Predictiva Flashcards
Analítica predictiva
La analítica predictiva proporciona herramientas para estimar aquellos datos de negocio que son desconocidos o inciertos, o que requieren de un proceso manual o costoso para su obtención.
Aprendizaje no supervisado
Técnica de entrenamiento donde no se incluye una clase o etiqueta asociada a las variables independientes o datos de interés, sino que se realizan clústeres o asociaciones entre los mismos a partir de características similares
Aprendizaje supervisado
Técnica de entrenamiento en la cual se introducen los datos de interés (atributos o variables independientes) asociadas a una etiqueta de clase (variables dependientes)
Corpus
El concepto de corpus hace referencia a la colección de textos a analizar durante un proceso de minería de texto. Puede estar formado por diferentes fuentes, entre las que destacan: emails, ficheros XML, páginas web, notas cortas, grabaciones de voz, documentos escritos, etc.
Crisp DM
Es un modelo del proceso de minería de datos que describe el enfoque más utilizado por expertos en Data Mining para resolver problemas.
Extracción de información
Análisis de documentos para extraer información y alimentar una ontología, que consiste en la definición formal de tipos, propiedades, y relaciones entre entidades en un dominio específico.
Knowledge discovery in databases (KDD)
Es un proceso no trivial que identifica patrones validos, previamente desconocidos, potencialmente útiles y fundamentalmente entendibles en los datos.
Matriz de Confusión
Es la principal herramienta para evaluar un clasificador. Cada columna contiene el número de predicciones de cada clase, y las filas representan las instancias en la clase real.
Minería de datos
Proceso que intenta extraer e identificar patrones, conocimiento, información… a partir de grandes volúmenes de conjuntos de datos, combinando técnicas estadísticas, inteligencia artificial y sistemas de bases de datos.
Minería de texto
Proceso semi-automatizado que permite descubrir conocimiento nuevo y útil de fuentes de datos de texto. Para posteriormente, aplicarlo a los objetivos de negocio
Natural language processing (NLP)
Conjunto de técnicas, métodos y herramientas que a través de las ciencias de la computación y la lingüística intentan entender, interpretar y manipular el lenguaje humano.
N-grama
Un n-grama es una subsecuencia de n elementos de una secuencia dada.
Nube de palabras
Una nube de palabras es una representación visual de las palabras que conforman un texto, en donde el tamaño es mayor para las palabras que aparecen con más frecuencia.
Social Media Analytics
Análisis sistemático del contenido de redes sociales.
Algoritmo PageRank
Algoritmo de Google que fue lanzado en 1999 por los fundadores de la compañía Larry Page y Sergey Brin. La función de este algoritmo era medir la importancia y la calidad de una página web en un rango que iba del 0 al 10, siguiendo una serie de criterios medibles.
Curva ROC
Es una representación gráfica de la sensibilidad frente a la especificidad para un sistema clasificador binario según se varía el umbral de discriminación.
Data Cleaning
Proceso de limpieza de los datos mediante técnica de imputación de datos faltantes para eliminar inconsistencias en los datos y eliminar el ruido o reducir la variabilidad.
Dato categórico
Es un tipo de dato discreto que puede ser nominal(hombre, mujer) u ordinal(desacuerdo, poco de acuerdo y de acuerdo)
Term frequency – Inverse document frequency
Tf-idf, frecuencia de término – frecuencia inversa de documento, es una medida numérica que expresa cuán relevante es una palabra para un documento en una colección.
TF = cuenta de las veces que el término aparece en el documento; IDF = re-escala inversamente proporcional al numero de documentos en los que el término aparece.