Cap 3 Chiari Flashcards

1
Q

Cosa si intende per Linguistica Informatica?

A

Lo studio computazionale dei dati linguistici immersi nel loro contesto cultural di produzione.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quali sono i due approcci della LI?

A

Approccio Empirico –> quantitativo
Approccio Umanistico –> qualitativo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quali sono dei testi ‘born digital’?

A

E-mail, blog, reddit post, didascalie di Instagram.

Insorgono però problemi di Accessibilità, Rilevanza, e Conservazione.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Come definiamo la Linguistica dei Corpora?

A

Come un approccio, non una branca, della scienza linguistica.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Chi rifiutò questo approccio negli anni ‘50?

A

Lo studioso americano Noam Chomsky. Di conseguenza, questo approccio ebbe una battuta di arresto negli anni Sessanta/Settanta. Dopo tale periodo vi fu un’esplosione opposta con progetti nazionali e internazionali etc. Questo grazie alla diffusione delle tecnologie informatiche.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Qual è l’oggetto di specifica indagine della linguistica dei corpora? (LdC)

A

Il testo come ‘occorrenza comunicativa’ in quanto espressione delle conoscenze linguistiche di una comunità e governato da principi interni ed esterni, assume una rilevanza senza precedenti nella seconda metà del Novecento, anche grazie a nuove tecniche di trattamento informatizzato.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Cosa critica Chomsky alla LdC?

A

Critica il ricorso ad un approccio empirico, in quanto considera i corpora incompleti. Sicuramente c’è un minimo di ragione, ma lo studio dei corpora ha un’importanza elevata. I corpora rappresentano la varietà della lingua e danno informazioni di frequenza, quindi possono svelarci cose altrimenti inosservabili.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Chi è che fa la distinzione tra Linguistica Corpus-based e Linguistica Corpus-driven?

A

Elena Tognini Bonelli (2001). La prima Linguistica fa uso dei corpora per integrare le teorie con dati linguistici reali (come il Dictionary of the English Language 1775-1756 di Samuel Johnson). La seconda Linguistica si fonda solo sui dati estratti dai corpora per elaborare teorie e ipotesi linguistiche generali (Longman Grammar of Spoken and Written English, Biber –> basata su un corpus di inglese britannico e americano di circa 40 milioni di parole).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Che definizione dà De Mauro del Corpus?

A

Corpus (plur. corpora) è una raccolta completa e ordinata di scritti, di uno o più autori, riguardanti una certa materia. Oppure, un campione di una lingua preso in esame nella descrizione di una lingua, da un punto di vista linguistico.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Perché un corpus di lingua è un campione di lingua?

A

Perché non può mai contenere tutte le possibili occorrenze testuali di una data lingua.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Cosa si intende per ‘popolazione’?

A

Un insieme di tutte le possibili osservazioni di un tipo su un dato campo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Cosa si intende per ‘campione’?

A

Una sezione, una parte di popolazione, che include solo alcune delle possibili osservazioni. Es. si vuole studiare l’uso del dialogo sarcastico in Jane Austen –> l’opera intera della Austen (popolazione) - Orgoglio e Pregiudizio (campione).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Perché la scelta del materiale è delicata?

A

Perché bisogna scegliere accuratamente il materiale in modo tale che sia rappresentativo della popolazione.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quali sono le caratteristiche di un corpus bilanciato?

A
  1. Leggibilità –> che sia letto dai Software per procedere con annotazione.
  2. Autenticità –> che il quadro linguistico sia storicamente e socialmente motivato.
  3. Estensione –> che sia sufficiente.
  4. Rappresentatività.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Cosa si intende per rappresentatività?

A

Un campione per essere rappresentativo deve avere caratteristiche simili a quelle che avrebbe l’intera popolazione, esibire lo stesso tipo di informazione (qualitativa) e con la stessa probabilità di occorrenza (quantitativa). Inoltre, deve essere fedele: omologia tra campione e popolazione.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Perché la rappresentatività varia?

A

Perché varia in base all’aspetto che si sceglie di studiare. Dunque, è un concetto relativo, dinamico, e teoricamente sfuggente.

17
Q

Perché è importante l’estensione del corpus?

A

L’estensione di un corpus è la sua ampiezza e ovviamente il numero di testi influenza la stessa rappresentatività.

18
Q

Quali sono i metodi più efficaci per valutare un campione e la sua rappresentatività?

A

Un campione non è mai di per sé rappresentativo, ma può esserlo da un certo punto di vista. La maggior parte delle valutazioni più accurate sono quelle che si basano sulla ricchezza del vocabolario. Tuttavia, un indicatore più globale può considerare anche il numero di occorrenze (tokens) di parole grafiche nel testo.

19
Q

Perché ad oggi un corpus di 500 MILA parole ci apparirebbe insufficiente?

A

Perché l’estensione standard è cambiata. Per le lingue più studiate oggi il minimo di estensione si aggira intorno a 100 MILIONI di parole (come il British National Corpus o Corpus di Italiano scritto contemporaneo CORIS). Alcuni raggiungono 500 milioni (Bank of English).

20
Q

Quali sono gli scopi principali delle ricerche basate su corpora?

A
  1. Usare le osservazioni per estenderle all’intera popolazione.
  2. Comparare le osservazioni su diversi corpora e confrontarle infine con un corpus di riferimento, individuandone le deviazioni.
21
Q

Qual è la differenza tra corpus testuali e corpus campionari?

A

I corpus testuali presentano testi nella loro interezza, senza tagli o selezioni.
I corpus campionari (sample corpora) danno conto di parti selezionate. Oggi questi ultimi sono raramente usati, perché essendoci l’intervento troppo forte del linguista, non sono affidabili.

22
Q

Quali sono le 4 caratteristiche per definire un corpus e far si che possa essere comparato con altri corpora individuate da McEnery e Wilson (1996)?

A
  1. Campionatura e rappresentatività
  2. Estensione finita
  3. Formato elettronico
  4. Riferimento standard
22
Q

Cosa riguarda la campionatura e rappresentatività?

A

Riguarda il metodo di raccolta e la tipologia dei testi scelti come esponenti di una data varietà di lingua.

23
Q

Cosa concerne l’estensione finita?

A

Concerne il numero di testi (e di parole) di cui è costituito un corpus. Solitamente tale estensione è circoscritta e statica.

24
Q

Di quante parole è costituito il British National Corpus?

A

100 milioni di parole, testi raccolti intorno al 1991.

25
Q

Qual è la differenza tra corpora statici e dinamici?

A

I corpora sono solitamente statici, ovvero le ricerche sono condotte in un lasso limitato di tempo e non vi saranno espansioni. I corpora dinamici, invece, fanno fronte a una raccolta periodica di nuovo materiale che verrà analizzato e si aggiungerà alla base iniziale.

26
Q

Come si chiamano i corpora dinamici?

A

Monitor corpus –> si ha un’analisi di tipo diacronico, nel tempo. Un esempio è il Bank of English di John Sinclair (all’origine di dizionari come il Collins Cobuild). In italiano abbiamo un progetto simile, il CODIS, elaborato e coordinato da Rema Rossini Favretti all’Università di Bologna, con raccolta di nuovo materiale ogni due anni.

27
Q

Che cosa indica il formato elettronico?

A

Indica il trattamento informatizzato dei dati testuali, giovandosi la possibilità di archiviare testi in formato digitale etc. I primi corpora venivano conservati in forma cartacea o con schede perforate, ora invece in forma elettronica.

28
Q

Quali sono i vantaggi di un corpus elettronico?

A

Ormai tutti i corpora lo sono, e essere machine-readable permette la conservazione di una quantità superiore di dati e anche analisi complesse. Inoltre, si può fare anche da un computer di casa.

29
Q

Cos’è il riferimento standard?

A

Segnala la possibilità per i grandi corpora di diventare punti di riferimento per lo studio della varietà che rappresentano attraverso esplicitazione delle metodologie di analisi, facilitando la comparazione tra corpora diversi ed evitando la necessità di ripetere i computi per ogni analisi successiva.