lezione 2 Flashcards
Quali tipologie di corpora esistono?
ogni corpus è il risultato di un’opera di selezione che si fonda su tre criteri: generalità, modalità e cronologia
quali sono i parametri da prendere in considerazione prima di iniziare la raccolta dati di un corpus?
obbiettivi dello studio, in quale contesto verrà usato il corpus (ricerca, didattico, …) e con chi verrà condiviso il corpus (via software, accesso libero, …)
come si costruisce un corpus?
ogni corpus è il risultato di un’opera di selezione che ne condiziona gli usi possibili
cos’è un corpus generale?
i corpora generali (CORIS) cercano di campionare tutti i generi testuali, al contrario dei corpora specialistici che restringono i campi d’indagine.
cos’è un corpus multimediale?
un corpus multimediale è un corpus che comprende una registrazione in formato non compresso (quindi wav e non mp3) e che può comprendere anche il video (in questo caso implica la trascrizione della componente motoria
cos’è un corpus comparabile?
è un corpus che comprende raccolte in più lingue ispirate agli stessi criteri. Si analizzano dati simili in lingue diverse.
per cosa si contraddistingue un corpus linguistico?
un corpus per essere linguistico deve avere del testo, se ho delle foto devono essere trascritte altrimenti non si tratta di un corpus ma di una collezione di foto fondamentali.
quali sono le fasi per la creazione di un corpus di lingua scritta?
DESIGN (definizione della ricerca, scelta delle dimensioni, scelta dei criteri di campionamento e fissazioni delle proporzioni delle sezioni di un corpus) e ACQUISIZIONE DEI DATI
quali sono le fasi per la creazione di un corpus di lingua parlata?
DESIGN, ACQUISIZIONE DEL DATO (posizionamento del microfono, download dei file da internet, questioni legate alla privacy), TRASCRIZIONE (fonetica/ ortografica, formato di trascrizione, …) e ANNOTAZIONE
cos’è il parlato elicitato?
parlato che avviene all’interno di un ambiente controllato che consente la produzione di dati specifici nel parlato attraverso una serie di strategie (es. giver/ follower)
come si gestiscono i testi dei corpora?
un corpus dal punto di vista tecnologico è una collezione di testi in formato elettronico che vanno gestiti in plain text
cos’è la codifica di livello zero’
è la codifica dei caratteri, correla il codice binario ai caratteri adoperati dall’uomo. Spesso nella trascrizione ci si trova davanti a problemi di codifica che portano alla visione di caratteri strani.
perché i testi dei corpora comprendono solo il formato .txt?
non posso usare programmi che hanno codifica proprietaria, con il formato txt ho solo il carattere e sono completamente portatili. i programmi come word comprendono dei tag che consentono di capire al programma funzionamenti di tipo secondario.
cos’è un markup?
deriva dalla tipografia antica -> i sistemi come word (WYSWYG) fanno questa cosa in maniera invisibile: per il linguista sono interessanti i linguaggi di markup - informazioni (sequenze di caratteri) ma visibili -> il procedimento è avere il testo pulito e poi manualmente o automaticamente marcare le informazioni che mi servono con tag visibili (che eventualmente posso anche rimuovere o interrogare).
a cosa serve il markup?
nelle codifiche ad alto livello sono tag che si aggiungono alla sequenza di caratteri che rappresentano il documento digitale per descrivere aspetti funzionali della produzione del documento elettronico.