nlp Flashcards

Question 1

Q

Weizenbaum, creador de ELIZA

Answer

A

ELIZA fue una asistente online programada mediante detección de patrones (aka RegEx) en los años sesenta en el MIT.

Primer bot conversacional de la historia.

Question 2

Q

Corpora

Answer

A

Se entiende por corpus (o en plural “corpora”) a cualquier colección de texto o voz que puede ser leído por una computadora.

Question 3

Q

Tokenización

Answer

A

La tokenización consiste en dividir un fragmento de texto en partes más pequeñas. Ya sea dividir el párrafo en oraciones, oraciones en palabras o palabras en caracteres.

Question 4

Q

Byte-Pair encoding (BPE)

Answer

A

https://huggingface.co/learn/nlp-course/chapter6/5?fw=pt

Question 5

Q

Stemming y Lematización

Answer

A

https://web.stanford.edu/~jurafsky/slp3/2.pdf

Question 6

Q

Algoritmo de Porter

Answer

A

https://web.stanford.edu/~jurafsky/slp3/2.pdf

Question 7

Q

Minimum edit distance

Answer

A

https://web.stanford.edu/~jurafsky/slp3/2.pdf

Question 8

Q

Discriminative model

Answer

A

P(y|x), decision boundary

Question 9

Q

Generative model

Answer

A

Estimate P(x|y) to deduce P(y|x), probability distributions of the data

Question 10

Q

Naive Bayes (Multinomial NB)

Answer

A

https://web.stanford.edu/~jurafsky/slp3/4.pdf

https://web.stanford.edu/~jurafsky/slp3/slides/4_NB_Apr_4_2021.pdf

Question 11

Q

Regresión logística + multinomial

Answer

A

https://web.stanford.edu/~jurafsky/slp3/slides/5_LR_Apr_7_2021.pdf

https://web.stanford.edu/~jurafsky/slp3/5.pdf

Question 12

Q

TF-IDF

Answer

A

https://github.com/LCaravaggio/NLP/blob/main/02_b%C3%A1sicas/Un_primer_TFIDF.ipynb

https://web.stanford.edu/~jurafsky/slp3/6.pdf

Question 13

Q

One hot encoding

Answer

A

+ Hay relaciones entre las palabras que podemos perder si las modelamos por conteo de apariciones (i.e polisemia, homonimia, sinonimia, antonimia, etc)

Question 14

Q

Semántica distribucional

Answer

A

Entender el significado de las palabras de acuerdo a su contexto.
Usamos un largo conjunto de instancias donde aparezca una palabra para intentar ver con qué palabras se relaciona más

Es la solucion del one-hot-encoding

Question 15

Q

Microaverage

Answer

A

En el microaverage, reunimos las decisiones de todas las clases en una única matriz de confusión y, a continuación, calculamos la precision y la recall a partir de esa tabla.

Question 16

Q

Macroaveraging

Answer

A

En el macroaveraging, calculamos la performance para cada clase y, a continuación, calculamos la media de todas las clases.

Question 17

Q

Matriz de confusión

Answer

A

https://docs.google.com/presentation/d/1tqJ_LqQLmSWZFG1XCoSaZCCqHRNc4tfYvqRNvqPrsNY/edit#slide=id.g26018375f7b_0_68

Question 18

Q

F-Score

Answer

A

https://docs.google.com/presentation/d/1tqJ_LqQLmSWZFG1XCoSaZCCqHRNc4tfYvqRNvqPrsNY/edit#slide=id.g26018375f7b_0_68

Question 19

Q

Similitud coseno

Answer

A

https://web.stanford.edu/~jurafsky/slp3/6.pdf

cosine(v, w) = v · w / |v||w|

Question 20

Q

Pointwise Mutual Information

Answer

A

https://web.stanford.edu/~jurafsky/slp3/6.pdf (6.6)

Question 21

Q

CBOW y Skip-Gram

Answer

A

https://www.youtube.com/watch?v=ERibwqs9p38&list=PL3FW7Lu3i5Jsnh1rnUwq_TcylNr7EkRe6&index=2

https://arxiv.org/pdf/1301.3781.pdf

Question 22

Q

Word2Vec

Answer

A

https://web.stanford.edu/~jurafsky/slp3/6.pdf (6.8)

Question 23

Q

fastText

Answer

A

https://fasttext.cc/

Question 24

Q

GloVe

Answer

A

https://www.youtube.com/watch?v=ASn7ExxLZws&list=PL3FW7Lu3i5Jsnh1rnUwq_TcylNr7EkRe6&index=3

Question 25

Q

backpropagation

Answer

A

https://web.stanford.edu/~jurafsky/slp3/7.pdf

https://docs.google.com/presentation/d/1mlLOuUmNuMGRDf2r8QDFLxyAadfsfPdpFaA9lEcRCJ8/edit#slide=id.g2287ef4c2f3_1_7

Question 26

Q

Pooling

Answer

A

https://web.stanford.edu/~jurafsky/slp3/7.pdf

Question 27

Q

Padding

Answer

A

Padding es una función de Keras que me sirve para convertir los datos en una matriz: https://www.tensorflow.org/api_docs/python/tf/keras/utils/pad_sequences

Question 28

Q

Dropout

Answer

A

https://web.stanford.edu/~jurafsky/slp3/7.pdf

Question 29

Q

Stochastic Gradient Descent

Answer

A

Una vez que podemos calcular el gradiente de la pérdida, optimizamos nuestros parámetros con descenso del gradiente.

Stochastic Gradient Descent: en vez de calcular el gradiente sobre TODO el dataset, vamos a calcularlo de a lotes (batches) de pequeño tamaño, usualmente 16/32. Eso va a permitirnos hacer más optimizaciones y que tampoco sean tan inestables como con un único ejemplo.

Luego de procesar cada batch, actualizamos los parámetros (optimization step). Al proceso de recorrer todo el dataset se le llama época (epoch).

PyTorch entrega los lotes a nuestro modelo mediante DataLoaders

Question 30

Q