lezione 2 Flashcards

1
Q

Quali tipologie di corpora esistono?

A

ogni corpus è il risultato di un’opera di selezione che si fonda su tre criteri: generalità, modalità e cronologia

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

quali sono i parametri da prendere in considerazione prima di iniziare la raccolta dati di un corpus?

A

obbiettivi dello studio, in quale contesto verrà usato il corpus (ricerca, didattico, …) e con chi verrà condiviso il corpus (via software, accesso libero, …)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

come si costruisce un corpus?

A

ogni corpus è il risultato di un’opera di selezione che ne condiziona gli usi possibili

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

cos’è un corpus generale?

A

i corpora generali (CORIS) cercano di campionare tutti i generi testuali, al contrario dei corpora specialistici che restringono i campi d’indagine.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

cos’è un corpus multimediale?

A

un corpus multimediale è un corpus che comprende una registrazione in formato non compresso (quindi wav e non mp3) e che può comprendere anche il video (in questo caso implica la trascrizione della componente motoria

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

cos’è un corpus comparabile?

A

è un corpus che comprende raccolte in più lingue ispirate agli stessi criteri. Si analizzano dati simili in lingue diverse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

per cosa si contraddistingue un corpus linguistico?

A

un corpus per essere linguistico deve avere del testo, se ho delle foto devono essere trascritte altrimenti non si tratta di un corpus ma di una collezione di foto fondamentali.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

quali sono le fasi per la creazione di un corpus di lingua scritta?

A

DESIGN (definizione della ricerca, scelta delle dimensioni, scelta dei criteri di campionamento e fissazioni delle proporzioni delle sezioni di un corpus) e ACQUISIZIONE DEI DATI

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

quali sono le fasi per la creazione di un corpus di lingua parlata?

A

DESIGN, ACQUISIZIONE DEL DATO (posizionamento del microfono, download dei file da internet, questioni legate alla privacy), TRASCRIZIONE (fonetica/ ortografica, formato di trascrizione, …) e ANNOTAZIONE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

cos’è il parlato elicitato?

A

parlato che avviene all’interno di un ambiente controllato che consente la produzione di dati specifici nel parlato attraverso una serie di strategie (es. giver/ follower)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

come si gestiscono i testi dei corpora?

A

un corpus dal punto di vista tecnologico è una collezione di testi in formato elettronico che vanno gestiti in plain text

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

cos’è la codifica di livello zero’

A

è la codifica dei caratteri, correla il codice binario ai caratteri adoperati dall’uomo. Spesso nella trascrizione ci si trova davanti a problemi di codifica che portano alla visione di caratteri strani.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

perché i testi dei corpora comprendono solo il formato .txt?

A

non posso usare programmi che hanno codifica proprietaria, con il formato txt ho solo il carattere e sono completamente portatili. i programmi come word comprendono dei tag che consentono di capire al programma funzionamenti di tipo secondario.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

cos’è un markup?

A

deriva dalla tipografia antica -> i sistemi come word (WYSWYG) fanno questa cosa in maniera invisibile: per il linguista sono interessanti i linguaggi di markup - informazioni (sequenze di caratteri) ma visibili -> il procedimento è avere il testo pulito e poi manualmente o automaticamente marcare le informazioni che mi servono con tag visibili (che eventualmente posso anche rimuovere o interrogare).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

a cosa serve il markup?

A

nelle codifiche ad alto livello sono tag che si aggiungono alla sequenza di caratteri che rappresentano il documento digitale per descrivere aspetti funzionali della produzione del documento elettronico.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

quanti tipi di markup ci sono e quali sono?

A
  1. generico-dichiarativo: si concentra sulla struttura del testo e consente di specificare la dimensione del font e distinguere tra diverse porzioni di testo
  2. specifico-procedurale: i tag marcano solo le informazioni di formattazione. indica quale effetto attivare e quale procedura