Lezione 3 Flashcards

Question 1

Q

cos’è la tokenizzazione?

Answer

A

La tokenizzazione è il processo di segmentazione in unità minime che poi si possono analizzare col computer. È un’unità di linguistica computazionale.

Question 2

Q

cosa comprende la tokenizzazione?

Answer

A

Dentro a questa etichetta cadono le parole grammaticali tradizionale, i numeri, le sigle, i segni di punteggiatura, … non ci sono criteri morfologici, semantici o sintattici ma solo di codifica del testo.

Question 3

Q

problema di fondo della tokenizzazione

Answer

A

a livello semplice di processamento il computer riconosce solo 0 e . in pratica il processo è insegnare alla macchina quali sono i confini delle parole

Question 4

Q

cos’è un token?

Answer

A

unità di base della linguistica computazionale. è una famiglia di oggetti eterogenea. definizione semplice perché si basa solo su caratteristiche superficiali del testo

Question 5

Q

ruolo della semantica nella tokenizzazione

Answer

A

NESSUNO si tratta di identificare criteri formali e superficiali che consentono di spezzettare il testo in maniera sensata

Question 6

Q

punteggiatura nella tokenizzazione

Answer

A

in questo processo la punteggiatura ha un ruolo ambiguo in quanto hanno gestioni molto diverse che devono essere fatte con criteri.

Question 7

Q

esempi di token graficamente complessi e perché lo sono

Answer

A

nomi propri, multiword expressions, sequenze alfa numeriche, …
Il problema che si pone rispetto alla tokenizzazione è che bisogna trovare dei sistemi e delle regole che consentano di formalizzare cosa va tenuto insieme e cosa separato.

Question 8

Q

macro-classi dei tipi di analisi che posso fare quando mi viene messo davanti un corpus

Answer

A

analisi qualitativa: ho un fenomeno in mente, vado nel corpus e pesco gli esempi
analisi quantitativa: cerco di pesare la rilevanza di un fenomeno contando le occorrenze e stimando la probabilità che accada
!! i due livelli di analisi non possono essere del tutto staccati uno dall’altro

Question 9

Q

cosa sono le concordanze?

Answer

A

è la lista delle occorrenze di una certa parola all’interno di un corpus presentata all’interno del suo complesso linguistico specificando il numero di parole che seguono o precedono quella presa in analisi

Question 10

Q

cos’è l’indicizzazione?

Answer

A

: quando faccio partire il pre-processamento del testo è come se il programma compilasse una tabella per cui per ogni parola viene segnata la frequenza e l’indicazione dei punti così che quando la interrogo lui sa già dove deve andare a cercare.

Question 11

Q

concordanza a cosa serve?

Answer

A

misura la variazione del significato di una parola e mi consente di vedere come cambia la lingua: l’uso di una parola in relazione ai contesti. Posso gestire la visualizzazione in modo da rendere i risultati più trasparenti: posso scegliere quanto ampio è il contesto e con quale ordine presentarle. è come se riorganizzassi grossolanamente i dati dandogli un criterio di prossimità

Question 12

Q

cos’è la collocazione?

Answer

A

è la co-occorrenza di due o più parole che tendono a presentarsi insieme (contigue o a distanza) più spesso di quanto si potrebbe prevedere. Processo per cui una parola determina il contesto dell’altra.

Question 13

Q

quali sono le proprietà delle collocazioni?

Answer

A

elevata convenzionalità (sono molto attese rispetto al lessico del parlante)
ridotta composizionalità semantica (somma del significato dei due lessemi che compongono la collocazione non mi dà il significato dell’insieme)
forte rigidità strutturale (resistenza alle modificazioni ed occorrenza in contesti sintattici specifici)

Question 14

Q

quali sono le misure per oggettivare una collocazione?

Answer

A

frequenza osservata (quante volte compaiono insieme i bi-grammi in un corpus)
mutual information (probabilità di avere due parole assieme rispetto a quella di osservarle singolarmente)
LogDice (misura di tipicità basata sulla frequenza della collocazione stessa)
Log-likelihood (compara la frequenza di occorrenza di un elemento linguistico in due corpora diversi)

Question 15

Q

cos’è ANTCONC?

Answer

A

uno dei primi software a disposizione per l’interrogazione dei corpora che segue metodi corpus-based e corpus-driven

Question 16

Q

differenze tra metodi corpus-based e corpus-driven

Answer

A

corpus-based: basata su intuizione o ricerche precedenti che vado a verificare sul corpus: analisi di tipo qualitativo -> concordanze, plot concordanze, analizzare cluster e collocati;
corpus-driven: il corpus suggerisce, guida la ricerca -> wordlist, anagrammi e lista keyword.