2da PARTE Flashcards

1
Q

Vectorización de palabras

A

Representar el significado de unidades lingüísticas mediante vectores numéricos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Tokenización

A

División de un texto en sus partes fundamentales

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Semántica vectorial

A

Espacio matemático de representación compacto en donde cada vector contiene información de las unidades lingüísticas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Embedding

A

Representación numérica de un texto, dónde palabras similares tienen representaciones similares

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

One-hot encoding

A

Representación de una palabra mediante un vector de tamaño igual al del vocabulario con ceros, excepto en el lugar correspondiente a la palabra

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Modelo de espacio vectorial

A

Modelo matemático y algebraico para transformar y representar documentos de texto

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Técnicas de extracción de características

A

Procesos utilizados para transformar datos brutos en representaciones numéricas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Elementos de entrada en el flujo de procesamiento de lenguaje natural

A

Texto, imágenes, audio, ocr, voz a texto, descripción de img

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Elementos de pre procesamiento del flujo de PLN

A

Detección y corrección de errores

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Qué se realiza en el primer procesamiento en el PLN

A

Segmentación, eliminar stopwords, lematización/stemming, etiquetado gramatical, análisis morfológico

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Sistemas o algoritmos basados en datos

A

Espacios semánticos y modelos de lenguaje

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Bolsa de palabras

A

Cada documento se convierte en un vector que representa la frecuencia de todas las palabras

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

N-gramas

A

Secuencia de n elementos (palabras, características o símbolos) que se extraen de un texto continuo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Término

A

Palabra o secuencia de palabras que se consideran una unidad significativa

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Frecuencia de término TF

A

Mide la frecuencia de aparición de un término específico en un documento. Determina la relevancia en el contexto de ese documento

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Frecuencia inversa de documento IDF

A

Evalúa la importancia de un término en el contexto de todo el corpus. Indica cuan

17
Q

Frecuencia inversa de documento IDF

A

Evalúa la importancia de un término en el contexto de todo el corpus. Indica cuan raro o común es el término en el corpus.

Cercano a 0 - muchos documentos tienen el término, es muy común, poco raro

Cercano a 1 - pocos documentos tienen el término, es poco común, muy raro

18
Q

TF-IDF

A

Puntuación que refleja la importancia del término en el contexto del documento y del corpus en general