Lezione 4 Flashcards

1
Q

cosa significare fare annotazioni?

A

aggiungere informazioni linguistiche ad un corpus o in generale a una risorsa per identificare delle unità di riferimento e assegnare valori linguistici attraverso l’applicazione di un tag

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

perché è necessario annotare?

A

il testo cruda veicola poche informazioni, quando ne esplicito di più posso interrogare le risorse in maniera più fine.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

perché annotare in tre parole?

A
  1. ESPLICITAZIONE (aumenta il contenuto informativo della risorsa linguistica)
  2. ESPLORAZIONE (consente ricerche più mirate e sofisticate del corpus)
  3. INTERPRETAZIONE (consente l’utilizzo del corpus come fonte di apprendimento)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

che tipi di annotazioni esistono?

A
  1. annotazioni di tipo extra-testuale
  2. annotazioni testuali propriamente linguistiche
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

caratteristiche di annotazioni di tipo extra-testuale

A

metadati riferiti ad un certo documento. informazioni riferite al testo nel suo complesso che vengono inserite o in un file separato o nella testata del documento

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

caratteristiche di annotazioni testuali propriamente linguistiche

A

si tratta di porzioni specifiche di testo. Possiamo annotare qualsiasi livello di analisi linguistica e nel caso dei corpora multimediali posso annotare anche ciò che non è propriamente linguistico

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Cos’è la lemmatizzazione?

A

è l’associazione di ogni token del testo al suo lemma di riferimento (cantano - cantare)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

cos’è il pos tagging?

A

attribuzione della parte del discorso/ classe di parola. è una sorta di analisi grammaticale.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Cos’è il parsing?

A

livello di analisi che esplicita la struttura sintattica. Si può fare in due modi:
1. a costituenti: identifico i costituenti e li relativizzo
2. a dipendenze: relazioni dirette tra una parola e l’altra sulla base di reggenze -> di solito il verbo che fa da perno della frase e proietta dei rami verso altri elementi che vanno a saturare la valenza e ogni elemento è agganciato a un altro da cui dipende

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

cosa sono i ruoli semantici?

A

livello d’analisi che esplicita la struttura argomentale. ogni verbo proietta una serie di posizioni potenziali riempite da degli argomenti -> i referenti di questi argomenti nell’evento che il predicato descrive giocano uno specifico ruolo (agente, paziente, ecc.)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

cosa sono le entità nominate?

A

tutto quello che può essere definito con un nome proprio, è un processo odi riconoscimento che viene per lo più automaticamente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

cos’è una struttura informativa?

A

una stringa più o meno lunga a cui assegno valore di topic o di comment

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

cosa sono le anafore?

A

sono elementi linguistici che possono essere annotati a cui sono agganciati elementi linguistici non direttamente collegati al referente della frase. quando due elementi vincolati tra loro si riferiscono alla stessa entità esterna questi sono in co-referenza.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

cosa si intende per gesti?

A

si tratta di un altro livello d’analisi che può essere annotato quando il soggetto è filmato. Lo studio dei gesti ha inizio dagli anni 70

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quali sono le due macro-classi di gesti?

A
  1. connessi al discorso: coesivi, emblematici e illustratori (tipo tenere il ritmo della locuzione)
  2. non connessi al discorso: non connessi alla locuzione vera e propria
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

cos’è un processo di trascrizione?

A

La lingua parlata si produce in un flusso continuo, prevalentemente all’interno di una
dinamica di scambio conversazionale senza limiti programmati.
· Gli eventi comunicativi che sfruttano il mezzo di trasmissione orale devono essere
registrati e poi trascritti in formato testuale al fine di rendere i dati analizzabili.
· Quindi, nel parlato il testo non è un dato di partenza, ma è il «prodotto» di
un’operazione interpretativa.

17
Q

problemi della trascrizione

A

è un processo molto soggettivo, soprattutto per quanto riguarda il processo di segmentazione in quanto c’è necessità di individuare le unità costituenti e poi trascrivere quello che sento

18
Q

norme di comportamento di Leech per una buona trascrizione e annotazione dei corpora

A
  1. It must be possible to remove the a. and revert to the raw corpus.
  2. It should be possible to extract the a. from text for storage elsewhere.
  3. The annotation schema should be based on guidelines available to the user (model).
  4. It should be clear how and by whom the a. was carried out.
  5. The end user should be warned that the a. are not infallible.
  6. Annotation schemas should be based on widely agreed and theory-neutrals principles.
  7. No a. schema has the a priori right to be considered as a standard.
19
Q

Qual è il principale formato per le annotazioni?

A

il più diffuso è XML ma ci posso inserire tutto a livello categoriale, strutturale e relazionale. XML consente di gestire in maniera flessibile tutti i tipi di dati (facile da convertire)

20
Q

cos’è CoNLL?

A

formato alternativo a XML in cui ogni riga contiene una parola e una serie di campi separati per tabulazione

21
Q

principali tipi di annotazione

A
  1. inline (ogni riga ha la sua annotazione)
  2. multitiered (il corpus ha una linea principale e tante linee associate sotto)
  3. standoff (annotazioni separata dal testo e legata attraverso un iper-link permettendo di gestire gerarchie che si sovrappongono)
22
Q

come annotare un testo?

A
  • manualmente (attribuisco i vari tag elemento per elemento)
    2. automaticamente
    3. semi-automaticamente (annoto i testi con la macchina e poi ricontrollo)
23
Q

dove si annotano i testi?

A

dipende dall’obbiettivo
- locale (nel mio pc) o in cloud (gestione di annotazioni condivise)
- plain-text (inserisco annotazione a mano) o software dedicato (tipo ELAN)
- creazione di un protocollo di annotazione o tagset predefinito

24
Q

cos’è Webanno?

A

piattaforma online general purpose che consente di distribuire l’annotazione tra varie persone (collaboratori).