2da PARTE Flashcards
Vectorización de palabras
Representar el significado de unidades lingüísticas mediante vectores numéricos
Tokenización
División de un texto en sus partes fundamentales
Semántica vectorial
Espacio matemático de representación compacto en donde cada vector contiene información de las unidades lingüísticas
Embedding
Representación numérica de un texto, dónde palabras similares tienen representaciones similares
One-hot encoding
Representación de una palabra mediante un vector de tamaño igual al del vocabulario con ceros, excepto en el lugar correspondiente a la palabra
Modelo de espacio vectorial
Modelo matemático y algebraico para transformar y representar documentos de texto
Técnicas de extracción de características
Procesos utilizados para transformar datos brutos en representaciones numéricas
Elementos de entrada en el flujo de procesamiento de lenguaje natural
Texto, imágenes, audio, ocr, voz a texto, descripción de img
Elementos de pre procesamiento del flujo de PLN
Detección y corrección de errores
Qué se realiza en el primer procesamiento en el PLN
Segmentación, eliminar stopwords, lematización/stemming, etiquetado gramatical, análisis morfológico
Sistemas o algoritmos basados en datos
Espacios semánticos y modelos de lenguaje
Bolsa de palabras
Cada documento se convierte en un vector que representa la frecuencia de todas las palabras
N-gramas
Secuencia de n elementos (palabras, características o símbolos) que se extraen de un texto continuo
Término
Palabra o secuencia de palabras que se consideran una unidad significativa
Frecuencia de término TF
Mide la frecuencia de aparición de un término específico en un documento. Determina la relevancia en el contexto de ese documento
Frecuencia inversa de documento IDF
Evalúa la importancia de un término en el contexto de todo el corpus. Indica cuan
Frecuencia inversa de documento IDF
Evalúa la importancia de un término en el contexto de todo el corpus. Indica cuan raro o común es el término en el corpus.
Cercano a 0 - muchos documentos tienen el término, es muy común, poco raro
Cercano a 1 - pocos documentos tienen el término, es poco común, muy raro
TF-IDF
Puntuación que refleja la importancia del término en el contexto del documento y del corpus en general