Final Flashcards
Incluye material encontrado hasta 2023b - 1° fecha.
¿Que pasa cuando se aumenta el N en el algoritmo de ngrams?
Mayor sparsity
El algoritmo de Porter es un algoritmo de:
- Tokenización
- Lemmatización
- Stemming
- Traducción
Stemming.
¿Qué arregla de RNN las LSTM?
- Mejor manejo de dependencias a largo plazo
- Capacidad de aprendizaje más rápida
- Mayor capacidad de memoria
- Menor probabilidad de sobreajuste
RNN: Recurrent Neural Networks
LSTM: Long short-term memory network
Mejor manejo de dependencias a largo plazo
Las LSTMs son capaces de manejar dependencias a largo plazo porque tienen una estructura interna especial con “gates” que les permite controlar el flujo de información a través de la red. Estos gates permiten a las LSTMs recordar información relevante de entradas anteriores, incluso si están separadas por muchos pasos en la secuencia.
¿Cuál es ejemplo de autosupervisado?
- Skip-grams
- BPE
- Latent Dirichlet Allocation (LDA)
- word2vec
La respuesta correcta es: word2vec.
El aprendizaje autosupervisado es un tipo de aprendizaje automático en el que el modelo se entrena sin etiquetas de datos. En cambio, el modelo aprende a identificar patrones en los datos sin saber qué representan esos patrones.
Skip-grams y BPE son dos algoritmos de aprendizaje supervisado que se utilizan para generar vectores de palabras. LDA es un algoritmo de aprendizaje no supervisado que se utiliza para generar temas a partir de texto.
Word2vec es un algoritmo de aprendizaje autosupervisado que se utiliza para generar vectores de palabras.
En word2vec, el modelo se entrena para predecir palabras que aparecen cerca de una palabra dada. Esto permite al modelo aprender las relaciones entre palabras, incluso si no tiene etiquetas de datos.
¿Qué solucionan los embeddings respecto de los ngramas?
Reduce sparsity
¿Qué diferencia tienen los transformers de las RNN?
- RNN procesan los datos secuencialmente, una palabra a la vez
- Todas las arquitecturas de RNN deben tener un ciclo de realimentación que permite a la red aprender relaciones entre las palabras anteriores y posteriores
- Los transformers son más capaces de aprender relaciones a largo alcance entre las palabras
- Los transformers se componen de dos capas principales: una capa de codificador y una capa de decodificador (no tienen ciclos)
- En términos de rendimiento, los transformers han demostrado ser superiores a las RNN.
Las métricas de evaluación de sistemas de traducción automático como chrF, BLEU, BERT-Score, etc. miden:
1. La similitud entre las traducciones del sistema y el texto en el idioma original.
2. Miden tanto la fluidez de las traducciones del sistema como su similitud como su con traducciones humanas de referencia.
3. Miden la similitud entre las traducciones del sistema y las traducciones humanas de referencia.
4. Miden el nivel de acuerdo o “agreement” entre crowdworkers que evalúan las traducciones del sistema.
Miden la similitud entre las traducciones del sistema y traducciones humanas de referencia (ground truth).
¿Qué se puede hacer un con modelo entrenado masked?
- Agregar una capa para poder clasificar sentiment.
- Adivinar la palabra maskeada.
- No se puede hacer nada.
- Ninguna de las anteriores
Agregar una capa para poder clasificar sentiment.
Ej. BERT
¿Para que se usan las RNN?
- Solo LM.
- LM y clasificación (sin MT).
- LM, clasificación y MT.
- Ninguna de las anteriores.
LM: Language Model
MT: Machine Translation
- LM y clasificación (sin MT).
¿Como se soluciona el exploding gradient?
- Mayor sparsity
- Batch normalization
- Dropout
- Clipping
Clipping.
Gradient clipping:
- Si la norma del gradiente es mayor que un umbral, se lo reduce
- Se da un paso en la misma dirección pero más pequeño. En otras palabras, avanza en la misma dirección pero menos
Teniendo “planta del pie” y “planta planta”, en word2vec:
¿Cómo da la similitud coseno para embeddings?
a. 1
b. -1
c. 0
d. No se puede saber
No se puede saber.
La similitud coseno para embeddings de word2vec se calcula como el producto punto entre los vectores de las palabras, dividido por el producto de sus magnitudes. En este caso, los vectores de las palabras “planta del pie” y “planta planta” serían muy similares, ya que ambas se refieren a la misma parte del cuerpo. Sin embargo, la magnitud de los vectores puede variar según el corpus de entrenamiento utilizado para generar los embeddings. Por lo tanto, no se puede saber con certeza cuál será la similitud coseno entre estas dos palabras.
Si los vectores de las palabras “planta del pie” y “planta planta” tienen la misma magnitud, entonces la similitud coseno sería 1. Sin embargo, si los vectores tienen magnitudes diferentes, entonces la similitud coseno podría ser cualquier valor entre 0 y 1.
Por ejemplo, si los vectores de las palabras “planta del pie” y “planta planta” tienen magnitudes de 10, entonces la similitud coseno sería 1. Sin embargo, si los vectores tienen magnitudes de 1 y 100, respectivamente, entonces la similitud coseno sería 0.01.
Teniendo “La capital de Colombia es Bogotá” y “Me gusta vivir en la capital de mi país” para embeddings c/ BERT, ¿Cómo da la similitud coseno?
a. 1
b. -1
c. 0
d. No se puede saber a priori
d. No se puede saber a priori
Este puede dar un número cercano a 1 pero no puede ser determinado a priori. El caso en el que da 1 es que sean iguales los embedding a evaluar.
¿Para qué sirve TF-IDF?
Obtener palabras mas relevantes en un documento a partir de una colección.
Para un transformer block que admite inputs de máx. 512 tokens:
- Puede procesar una secuencia de 600 tokens.
- Puede procesar secuencias de largo variable (menores a 512).
- Requiere padding para procesar secuencias de menos de 512 tokens (completar con un token especial hasta llegar a 512 posiciones).
- El costo computacional es independiente de la longitud del input (e.g. el cómputo es el mismo para 10 tokens que para 512).
Responder Verdadero o Falso para cada una.
Respuestas:
- Falso. Un transformer block que admite inputs de máx. 512 tokens no puede procesar una secuencia de 600 tokens. La longitud del input debe ser menor o igual a 512.
- Verdadero. Un transformer block que admite inputs de máx. 512 tokens puede procesar secuencias de largo variable (menores a 512). En este caso, el transformer simplemente ignorará los tokens que excedan los 512.
- Falso. Un transformer no requiere padding obligatorio para procesar secuencias más cortas. Puede manejar secuencias de longitud variable sin la necesidad de agregar tokens especiales de padding.
- Falso. El costo computacional de un transformer block es dependiente de la longitud del input. El costo computacional aumenta linealmente con la longitud del input.
Sea el vocabulario V={el, pasto, río, sol, zapato} y el texto X=”el sol ilumina el pasto mientras el río fluye”. ¿Cuál es la represtación en features de X. según el modelo bag-of-words? Considerar una segmentación en palabras y feature ordenados alfabéticamente
1. {1, 1, 1, 1, 1, 1, 1, 1, 1}
2. {3, 1, 1, 1, 0}
3. {1, 1, 1, 1, 0}
4. {1, 1, 0, 1, 1, 0, 1, 1, 0}
- {3, 1, 1, 1, 0}
Se suman las que están a un vector del mismo tamaño que el vocabulario.