Lezione 6 Flashcards
cos’è TEI?
sistema di codifica maggiormente condiviso dall’opinione dei linguisti viene sviluppato da tre associazioni che si occupano di metodologie informatiche. Si tratta di una DTD che contempla tutta la serie di fenomeni di interesse umanistico
storia di TEI
Nel 1987 viene avviato un progetto di ricerca per sviluppare un progetto internazionale per sviluppare un modello di codifica normalizzato con l’obbiettivo di agevolare la portabilità dei prodotti digitali e consentire la condivisione dei formati di scambio.
come sono fatti i testi che rispettano le specifiche di TEI?
ogni testo è costituito da due parti:
- TEI header: contiene i metadati
-TEI text: contiene la trascrizione codificata del testo in versione integrale
quante e quali parti compongono la testa del documento?
in totale sono 4 parti:
- fileDesc (descrizione bibliografica completa di un file digitale)
-encodingDesc (documenta le relazioni tra testo elettronico e fonte)
-profileDesc (descrizione dettagliata degli aspetti non bibliografici di un testo)
-revisionDesc (riassume la storia delle revisioni di un documento elettronico)
quante quali parti compongono il corpo del documento?
anche in questo caso ci sono 4 parti
- front
- body
- group
- back
front e back sono necessari solo se il documento riporta delle informazioni a livello paratestuale, all’inizio o alla fine del documento vero e proprio
group è necessario se si devono codificare una serie di testi che fanno parte della propria individualità
suddivisioni interne di <body>
body comprende una serie di suddivisioni interne necessarie a definire la struttura interna del testo in modo specifico rispetto alla tipologia
cosa sono i Simple Analytic Mechanisms?
meccanismi che servono per esplicitare valori linguistici in base al fenomeno che devo realizzare. Se il sistema TEI non dovesse bastare è necessario creare un nuovo tagset specifico per la cosa che sto cercando, arrivando ad analizzare fino al livello del morfema con un buon grado di accuratezza
cosa sono i metadati?
sono informazioni sui dati che descrivono accuratamente la risorsa che si sta realizzando con un livello di dettaglio e accuratezza sufficiente per consentire di decidere se la risorsa è adatta o meno allo scopo prefissato. I metadati definiscono la categoria del testo
utilità dei metadati
senza i metadati non possiamo distinguere o raggruppare le componenti dei testi che compongono un corpus eterogeneo e neppure le proprietà di un gruppo eterogeneo. Senza i metadati la linguistica dei corpora sarebbe virtualmente impossibile
principali tipi di metadati
- editoriali (informazioni sulla relazione tra corpus e fonte originale)
- analitici (forniscono informazioni su come il corpus è stato realizzato dal ricercatore)
- descrittivi (classificano il testo in base a proprietà interne o esterne)
- amministrativi (danno informazioni sulle caratteristiche generali dei materiali)
dove si inseriscono i metadati?
- nella testata del documento (non si rischia di perderli ma vanno rimossi per tornare al file originale se devo fare un’analisi automatica
- in un file separato (ho soltanto il testo annotato)
Quali sono i formati standard dei metadati?
- IMDI, descrive risorse di linguaggio multimediali e multimodali
- CMDI, contiene informazioni per una ricerca specifica, si può accedere liberamente