Cap 3 Chiari Flashcards
Cosa si intende per Linguistica Informatica?
Lo studio computazionale dei dati linguistici immersi nel loro contesto cultural di produzione.
Quali sono i due approcci della LI?
Approccio Empirico –> quantitativo
Approccio Umanistico –> qualitativo
Quali sono dei testi ‘born digital’?
E-mail, blog, reddit post, didascalie di Instagram.
Insorgono però problemi di Accessibilità, Rilevanza, e Conservazione.
Come definiamo la Linguistica dei Corpora?
Come un approccio, non una branca, della scienza linguistica.
Chi rifiutò questo approccio negli anni ‘50?
Lo studioso americano Noam Chomsky. Di conseguenza, questo approccio ebbe una battuta di arresto negli anni Sessanta/Settanta. Dopo tale periodo vi fu un’esplosione opposta con progetti nazionali e internazionali etc. Questo grazie alla diffusione delle tecnologie informatiche.
Qual è l’oggetto di specifica indagine della linguistica dei corpora? (LdC)
Il testo come ‘occorrenza comunicativa’ in quanto espressione delle conoscenze linguistiche di una comunità e governato da principi interni ed esterni, assume una rilevanza senza precedenti nella seconda metà del Novecento, anche grazie a nuove tecniche di trattamento informatizzato.
Cosa critica Chomsky alla LdC?
Critica il ricorso ad un approccio empirico, in quanto considera i corpora incompleti. Sicuramente c’è un minimo di ragione, ma lo studio dei corpora ha un’importanza elevata. I corpora rappresentano la varietà della lingua e danno informazioni di frequenza, quindi possono svelarci cose altrimenti inosservabili.
Chi è che fa la distinzione tra Linguistica Corpus-based e Linguistica Corpus-driven?
Elena Tognini Bonelli (2001). La prima Linguistica fa uso dei corpora per integrare le teorie con dati linguistici reali (come il Dictionary of the English Language 1775-1756 di Samuel Johnson). La seconda Linguistica si fonda solo sui dati estratti dai corpora per elaborare teorie e ipotesi linguistiche generali (Longman Grammar of Spoken and Written English, Biber –> basata su un corpus di inglese britannico e americano di circa 40 milioni di parole).
Che definizione dà De Mauro del Corpus?
Corpus (plur. corpora) è una raccolta completa e ordinata di scritti, di uno o più autori, riguardanti una certa materia. Oppure, un campione di una lingua preso in esame nella descrizione di una lingua, da un punto di vista linguistico.
Perché un corpus di lingua è un campione di lingua?
Perché non può mai contenere tutte le possibili occorrenze testuali di una data lingua.
Cosa si intende per ‘popolazione’?
Un insieme di tutte le possibili osservazioni di un tipo su un dato campo.
Cosa si intende per ‘campione’?
Una sezione, una parte di popolazione, che include solo alcune delle possibili osservazioni. Es. si vuole studiare l’uso del dialogo sarcastico in Jane Austen –> l’opera intera della Austen (popolazione) - Orgoglio e Pregiudizio (campione).
Perché la scelta del materiale è delicata?
Perché bisogna scegliere accuratamente il materiale in modo tale che sia rappresentativo della popolazione.
Quali sono le caratteristiche di un corpus bilanciato?
- Leggibilità –> che sia letto dai Software per procedere con annotazione.
- Autenticità –> che il quadro linguistico sia storicamente e socialmente motivato.
- Estensione –> che sia sufficiente.
- Rappresentatività.
Cosa si intende per rappresentatività?
Un campione per essere rappresentativo deve avere caratteristiche simili a quelle che avrebbe l’intera popolazione, esibire lo stesso tipo di informazione (qualitativa) e con la stessa probabilità di occorrenza (quantitativa). Inoltre, deve essere fedele: omologia tra campione e popolazione.