Tema 3: Analítica Predictiva Flashcards
Analítica predictiva
La analítica predictiva proporciona herramientas para estimar aquellos datos de negocio que son desconocidos o inciertos, o que requieren de un proceso manual o costoso para su obtención.
Aprendizaje no supervisado
Técnica de entrenamiento donde no se incluye una clase o etiqueta asociada a las variables independientes o datos de interés, sino que se realizan clústeres o asociaciones entre los mismos a partir de características similares
Aprendizaje supervisado
Técnica de entrenamiento en la cual se introducen los datos de interés (atributos o variables independientes) asociadas a una etiqueta de clase (variables dependientes)
Corpus
El concepto de corpus hace referencia a la colección de textos a analizar durante un proceso de minería de texto. Puede estar formado por diferentes fuentes, entre las que destacan: emails, ficheros XML, páginas web, notas cortas, grabaciones de voz, documentos escritos, etc.
Crisp DM
Es un modelo del proceso de minería de datos que describe el enfoque más utilizado por expertos en Data Mining para resolver problemas.
Extracción de información
Análisis de documentos para extraer información y alimentar una ontología, que consiste en la definición formal de tipos, propiedades, y relaciones entre entidades en un dominio específico.
Knowledge discovery in databases (KDD)
Es un proceso no trivial que identifica patrones validos, previamente desconocidos, potencialmente útiles y fundamentalmente entendibles en los datos.
Matriz de Confusión
Es la principal herramienta para evaluar un clasificador. Cada columna contiene el número de predicciones de cada clase, y las filas representan las instancias en la clase real.
Minería de datos
Proceso que intenta extraer e identificar patrones, conocimiento, información… a partir de grandes volúmenes de conjuntos de datos, combinando técnicas estadísticas, inteligencia artificial y sistemas de bases de datos.
Minería de texto
Proceso semi-automatizado que permite descubrir conocimiento nuevo y útil de fuentes de datos de texto. Para posteriormente, aplicarlo a los objetivos de negocio
Natural language processing (NLP)
Conjunto de técnicas, métodos y herramientas que a través de las ciencias de la computación y la lingüística intentan entender, interpretar y manipular el lenguaje humano.
N-grama
Un n-grama es una subsecuencia de n elementos de una secuencia dada.
Nube de palabras
Una nube de palabras es una representación visual de las palabras que conforman un texto, en donde el tamaño es mayor para las palabras que aparecen con más frecuencia.
Social Media Analytics
Análisis sistemático del contenido de redes sociales.
Algoritmo PageRank
Algoritmo de Google que fue lanzado en 1999 por los fundadores de la compañía Larry Page y Sergey Brin. La función de este algoritmo era medir la importancia y la calidad de una página web en un rango que iba del 0 al 10, siguiendo una serie de criterios medibles.