Lezione 3 Flashcards
cos’è la tokenizzazione?
La tokenizzazione è il processo di segmentazione in unità minime che poi si possono analizzare col computer. È un’unità di linguistica computazionale.
cosa comprende la tokenizzazione?
Dentro a questa etichetta cadono le parole grammaticali tradizionale, i numeri, le sigle, i segni di punteggiatura, … non ci sono criteri morfologici, semantici o sintattici ma solo di codifica del testo.
problema di fondo della tokenizzazione
a livello semplice di processamento il computer riconosce solo 0 e . in pratica il processo è insegnare alla macchina quali sono i confini delle parole
cos’è un token?
unità di base della linguistica computazionale. è una famiglia di oggetti eterogenea. definizione semplice perché si basa solo su caratteristiche superficiali del testo
ruolo della semantica nella tokenizzazione
NESSUNO si tratta di identificare criteri formali e superficiali che consentono di spezzettare il testo in maniera sensata
punteggiatura nella tokenizzazione
in questo processo la punteggiatura ha un ruolo ambiguo in quanto hanno gestioni molto diverse che devono essere fatte con criteri.
esempi di token graficamente complessi e perché lo sono
nomi propri, multiword expressions, sequenze alfa numeriche, …
Il problema che si pone rispetto alla tokenizzazione è che bisogna trovare dei sistemi e delle regole che consentano di formalizzare cosa va tenuto insieme e cosa separato.
macro-classi dei tipi di analisi che posso fare quando mi viene messo davanti un corpus
- analisi qualitativa: ho un fenomeno in mente, vado nel corpus e pesco gli esempi
- analisi quantitativa: cerco di pesare la rilevanza di un fenomeno contando le occorrenze e stimando la probabilità che accada
!! i due livelli di analisi non possono essere del tutto staccati uno dall’altro
cosa sono le concordanze?
è la lista delle occorrenze di una certa parola all’interno di un corpus presentata all’interno del suo complesso linguistico specificando il numero di parole che seguono o precedono quella presa in analisi
cos’è l’indicizzazione?
: quando faccio partire il pre-processamento del testo è come se il programma compilasse una tabella per cui per ogni parola viene segnata la frequenza e l’indicazione dei punti così che quando la interrogo lui sa già dove deve andare a cercare.
concordanza a cosa serve?
misura la variazione del significato di una parola e mi consente di vedere come cambia la lingua: l’uso di una parola in relazione ai contesti. Posso gestire la visualizzazione in modo da rendere i risultati più trasparenti: posso scegliere quanto ampio è il contesto e con quale ordine presentarle. è come se riorganizzassi grossolanamente i dati dandogli un criterio di prossimità
cos’è la collocazione?
è la co-occorrenza di due o più parole che tendono a presentarsi insieme (contigue o a distanza) più spesso di quanto si potrebbe prevedere. Processo per cui una parola determina il contesto dell’altra.
quali sono le proprietà delle collocazioni?
- elevata convenzionalità (sono molto attese rispetto al lessico del parlante)
- ridotta composizionalità semantica (somma del significato dei due lessemi che compongono la collocazione non mi dà il significato dell’insieme)
- forte rigidità strutturale (resistenza alle modificazioni ed occorrenza in contesti sintattici specifici)
quali sono le misure per oggettivare una collocazione?
- frequenza osservata (quante volte compaiono insieme i bi-grammi in un corpus)
- mutual information (probabilità di avere due parole assieme rispetto a quella di osservarle singolarmente)
- LogDice (misura di tipicità basata sulla frequenza della collocazione stessa)
- Log-likelihood (compara la frequenza di occorrenza di un elemento linguistico in due corpora diversi)
cos’è ANTCONC?
uno dei primi software a disposizione per l’interrogazione dei corpora che segue metodi corpus-based e corpus-driven