Lezione 3 Flashcards

1
Q

cos’è la tokenizzazione?

A

La tokenizzazione è il processo di segmentazione in unità minime che poi si possono analizzare col computer. È un’unità di linguistica computazionale.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

cosa comprende la tokenizzazione?

A

Dentro a questa etichetta cadono le parole grammaticali tradizionale, i numeri, le sigle, i segni di punteggiatura, … non ci sono criteri morfologici, semantici o sintattici ma solo di codifica del testo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

problema di fondo della tokenizzazione

A

a livello semplice di processamento il computer riconosce solo 0 e . in pratica il processo è insegnare alla macchina quali sono i confini delle parole

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

cos’è un token?

A

unità di base della linguistica computazionale. è una famiglia di oggetti eterogenea. definizione semplice perché si basa solo su caratteristiche superficiali del testo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

ruolo della semantica nella tokenizzazione

A

NESSUNO si tratta di identificare criteri formali e superficiali che consentono di spezzettare il testo in maniera sensata

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

punteggiatura nella tokenizzazione

A

in questo processo la punteggiatura ha un ruolo ambiguo in quanto hanno gestioni molto diverse che devono essere fatte con criteri.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

esempi di token graficamente complessi e perché lo sono

A

nomi propri, multiword expressions, sequenze alfa numeriche, …
Il problema che si pone rispetto alla tokenizzazione è che bisogna trovare dei sistemi e delle regole che consentano di formalizzare cosa va tenuto insieme e cosa separato.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

macro-classi dei tipi di analisi che posso fare quando mi viene messo davanti un corpus

A
  1. analisi qualitativa: ho un fenomeno in mente, vado nel corpus e pesco gli esempi
  2. analisi quantitativa: cerco di pesare la rilevanza di un fenomeno contando le occorrenze e stimando la probabilità che accada
    !! i due livelli di analisi non possono essere del tutto staccati uno dall’altro
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

cosa sono le concordanze?

A

è la lista delle occorrenze di una certa parola all’interno di un corpus presentata all’interno del suo complesso linguistico specificando il numero di parole che seguono o precedono quella presa in analisi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

cos’è l’indicizzazione?

A

: quando faccio partire il pre-processamento del testo è come se il programma compilasse una tabella per cui per ogni parola viene segnata la frequenza e l’indicazione dei punti così che quando la interrogo lui sa già dove deve andare a cercare.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

concordanza a cosa serve?

A

misura la variazione del significato di una parola e mi consente di vedere come cambia la lingua: l’uso di una parola in relazione ai contesti. Posso gestire la visualizzazione in modo da rendere i risultati più trasparenti: posso scegliere quanto ampio è il contesto e con quale ordine presentarle. è come se riorganizzassi grossolanamente i dati dandogli un criterio di prossimità

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

cos’è la collocazione?

A

è la co-occorrenza di due o più parole che tendono a presentarsi insieme (contigue o a distanza) più spesso di quanto si potrebbe prevedere. Processo per cui una parola determina il contesto dell’altra.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

quali sono le proprietà delle collocazioni?

A
  1. elevata convenzionalità (sono molto attese rispetto al lessico del parlante)
  2. ridotta composizionalità semantica (somma del significato dei due lessemi che compongono la collocazione non mi dà il significato dell’insieme)
  3. forte rigidità strutturale (resistenza alle modificazioni ed occorrenza in contesti sintattici specifici)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

quali sono le misure per oggettivare una collocazione?

A
  1. frequenza osservata (quante volte compaiono insieme i bi-grammi in un corpus)
  2. mutual information (probabilità di avere due parole assieme rispetto a quella di osservarle singolarmente)
  3. LogDice (misura di tipicità basata sulla frequenza della collocazione stessa)
  4. Log-likelihood (compara la frequenza di occorrenza di un elemento linguistico in due corpora diversi)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

cos’è ANTCONC?

A

uno dei primi software a disposizione per l’interrogazione dei corpora che segue metodi corpus-based e corpus-driven

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

differenze tra metodi corpus-based e corpus-driven

A
  • corpus-based: basata su intuizione o ricerche precedenti che vado a verificare sul corpus: analisi di tipo qualitativo -> concordanze, plot concordanze, analizzare cluster e collocati;
  • corpus-driven: il corpus suggerisce, guida la ricerca -> wordlist, anagrammi e lista keyword.