Lezione 4 Flashcards
cosa significare fare annotazioni?
aggiungere informazioni linguistiche ad un corpus o in generale a una risorsa per identificare delle unità di riferimento e assegnare valori linguistici attraverso l’applicazione di un tag
perché è necessario annotare?
il testo cruda veicola poche informazioni, quando ne esplicito di più posso interrogare le risorse in maniera più fine.
perché annotare in tre parole?
- ESPLICITAZIONE (aumenta il contenuto informativo della risorsa linguistica)
- ESPLORAZIONE (consente ricerche più mirate e sofisticate del corpus)
- INTERPRETAZIONE (consente l’utilizzo del corpus come fonte di apprendimento)
che tipi di annotazioni esistono?
- annotazioni di tipo extra-testuale
- annotazioni testuali propriamente linguistiche
caratteristiche di annotazioni di tipo extra-testuale
metadati riferiti ad un certo documento. informazioni riferite al testo nel suo complesso che vengono inserite o in un file separato o nella testata del documento
caratteristiche di annotazioni testuali propriamente linguistiche
si tratta di porzioni specifiche di testo. Possiamo annotare qualsiasi livello di analisi linguistica e nel caso dei corpora multimediali posso annotare anche ciò che non è propriamente linguistico
Cos’è la lemmatizzazione?
è l’associazione di ogni token del testo al suo lemma di riferimento (cantano - cantare)
cos’è il pos tagging?
attribuzione della parte del discorso/ classe di parola. è una sorta di analisi grammaticale.
Cos’è il parsing?
livello di analisi che esplicita la struttura sintattica. Si può fare in due modi:
1. a costituenti: identifico i costituenti e li relativizzo
2. a dipendenze: relazioni dirette tra una parola e l’altra sulla base di reggenze -> di solito il verbo che fa da perno della frase e proietta dei rami verso altri elementi che vanno a saturare la valenza e ogni elemento è agganciato a un altro da cui dipende
cosa sono i ruoli semantici?
livello d’analisi che esplicita la struttura argomentale. ogni verbo proietta una serie di posizioni potenziali riempite da degli argomenti -> i referenti di questi argomenti nell’evento che il predicato descrive giocano uno specifico ruolo (agente, paziente, ecc.)
cosa sono le entità nominate?
tutto quello che può essere definito con un nome proprio, è un processo odi riconoscimento che viene per lo più automaticamente.
cos’è una struttura informativa?
una stringa più o meno lunga a cui assegno valore di topic o di comment
cosa sono le anafore?
sono elementi linguistici che possono essere annotati a cui sono agganciati elementi linguistici non direttamente collegati al referente della frase. quando due elementi vincolati tra loro si riferiscono alla stessa entità esterna questi sono in co-referenza.
cosa si intende per gesti?
si tratta di un altro livello d’analisi che può essere annotato quando il soggetto è filmato. Lo studio dei gesti ha inizio dagli anni 70
Quali sono le due macro-classi di gesti?
- connessi al discorso: coesivi, emblematici e illustratori (tipo tenere il ritmo della locuzione)
- non connessi al discorso: non connessi alla locuzione vera e propria