2da PARTE Flashcards
Vectorización de palabras
Representar el significado de unidades lingüísticas mediante vectores numéricos
Tokenización
División de un texto en sus partes fundamentales
Semántica vectorial
Espacio matemático de representación compacto en donde cada vector contiene información de las unidades lingüísticas
Embedding
Representación numérica de un texto, dónde palabras similares tienen representaciones similares
One-hot encoding
Representación de una palabra mediante un vector de tamaño igual al del vocabulario con ceros, excepto en el lugar correspondiente a la palabra
Modelo de espacio vectorial
Modelo matemático y algebraico para transformar y representar documentos de texto
Técnicas de extracción de características
Procesos utilizados para transformar datos brutos en representaciones numéricas
Elementos de entrada en el flujo de procesamiento de lenguaje natural
Texto, imágenes, audio, ocr, voz a texto, descripción de img
Elementos de pre procesamiento del flujo de PLN
Detección y corrección de errores
Qué se realiza en el primer procesamiento en el PLN
Segmentación, eliminar stopwords, lematización/stemming, etiquetado gramatical, análisis morfológico
Sistemas o algoritmos basados en datos
Espacios semánticos y modelos de lenguaje
Bolsa de palabras
Cada documento se convierte en un vector que representa la frecuencia de todas las palabras
N-gramas
Secuencia de n elementos (palabras, características o símbolos) que se extraen de un texto continuo
Término
Palabra o secuencia de palabras que se consideran una unidad significativa
Frecuencia de término TF
Mide la frecuencia de aparición de un término específico en un documento. Determina la relevancia en el contexto de ese documento