Moforlogía Flashcards
¿Qué es la morfología?
Es el estudio de la forma de las palabras.
Morfología es el estudio de la forma mediante la cual son construidas las palabras desde unidades más pequeñas de significado.
• Por ejemplo, la palabra “fox” consiste de un morfema único, en cambio la palabra “cats” consiste de dos: cat y –s.
¿Cuál es la diferencia entre las reglas ortográficas y morfológicas?
Ortográficas: nos dicen que las palabras que terminan con –y se les cambia esta terminación por –i y se les agregan –es al final.
Morfológicas: Nos dice que “fish” tiene un plural nulo y que el plural de goose se forma cambiando la vocal.
¿Qué es el parseo morfológico?
- Es el proceso de identificar que las palabras se separan en componentes (raíz + morfemas: fox + es).
- Toma un input y produce una salida lingüística.
- Se aplica en muchos otros casos aparte de los plurales:
- Por ejemplo, en verbos que terminan en –ing quedrían llevarse a su raíz (VERB- go + GERUND-ing).
- Es fundamental para hacer correción ortográfica.
¿Qué es lematización?
Lemmatización es el mapeo de cada palabra a
su lemma:
• Por ejemplo “sang”, “sung” y “sings” son todas formas del lemma o raíz “sing”.
¿Qué es tokenización?
• La tarea de separar las palabras contenidas en un texto.
¿Qué es el “stem”?
Stem es el morfema principal, el que porta el significado principal.
¿Qué es un afijo?
Afijos agregan significado de varios tipos.
• Prefijos: preceden al stem, e.g., cat+s.
• Sufijos: siguen al stem, e.g., un+buckle.
• Infijos: están insertos en el medio del stem. Hay un infijo que se utiliza en el inglés “”: “fking” o “bl**dy”
• Circumfijos: están al comienzo y al final. En inglés no hay muchos de este tipo, sin embargo hay idiomas como el alemán que tiene muchísimos, e.g., ge+verbo+t
¿Qué tipos de afijos hay?
- prefijos
- sufijos
- infijos
- circumfijos
¿Cuáles son los cuatro formas de combinar morfemas y crear palabras nuevas?
- Inflexion
- Derivación
- Composición
- Clitización
¿Qué es una función sintáctica?
ver inflexion
¿Qué produce la inflexión?
Inflexión: Es una combinación entre una raíz de palabras con un morfema gramatical, dando como resultado (usualmente) en una palabra de la misma clase que la raíz. La intención es típicamente desempeñar una función sintáctica como coordinar. ejemplos son las terminaciones en inglés –s y –ed.
¿Qué es una derivación?
Derivación: Es la combinación de una palabra raíz con un morfema gramatical que usualmente termina cambiando la clase de la palabra original. Normalmente el significado de la nueva palabra es difícil de predecir.
• “computerize” puede tomar el sufijo derivacional “computerization”.
- Una derivación es la combinación de una raíz de palabra con un morfema gramatical, usualmente resulta en una palabra de clase diferente.
- El significado de la palabra resultante es difícil de predecir.
¿Qué es una composición?
Composición: Es la combinación de múltiples raíces.
• Por ejemplo, “doghouse” es la combinación de “dog” y “house”.
¿Qué entrega el parseo morfológico?
cricri…
¿Qué es “stemming”? ¿Cuáles son sus ventajas y desventajas?
• Es una “simplificación” de un lematizador.
• No necesita un gran léxico para identificar palabras, más bien utiliza reglas simples pero eficientes.
• Stemming remueve los sufijos de acuerdo a ese conjunto de reglas.
No mapea la palabra a su raíz.
un •
“stemmer”?
• Muchas veces no sólo remueve el sufijo, sino que también agrega termaciones nuevas.
• Comete muchos errores.
¿En qué consiste la tokenización? ¿Cuales son sus principales desafios?
• Tokenización es la tarea de dividir un texto en
oraciones y palabras.
¿En qué consiste la “Minimum Edit Distance”?
• Uno de los factores que influye en el
rendimiento son las faltas de ortografía.
• Las palabras no están en algún diccionario, pero si se supiera su corrección, entonces si sería encontrada.
• Es más difícil encontrar su lemma o stem.
•Pero en los diccionarios se pueden encontrar palabras parecidas ¿Cuál es la mejor opción?
- La distancia de strings es el problema de medir cuan parecido entre ellas son dos cadenas.
- La “minimum edit distance” entre dos cadenas es el número mínimo de operaciones de edición que se necesitan para transformar una cadena en la otra.
- Operaciones de eliminación, inserción y modificación.
¿Qué es la clitización?
Es la combinación de una palabra raíz con un clítico. Un clítico es un morfema que actúa sintácticamente como una palabra, pero es reducida en forma y adjuntada a otra palabra.
• ‘ve en la palabra I’ve es un clítico. • Lo mismo l’ en l’opera en francés.
¿Que es la normalización?
- Un tipo de derivación es la formación de nuevos sustantivos, frecuentemente de verbos o adjetivos.
- Este proceso se llama normalización.