Linguistics: an introduction Part II Investigating language in use: corpus linguistics Flashcards
Corpus linguïstics
Een samenbundeling van het werkelijke gebruik van een taal in de vorm van een corpus (voor 1980 in boeken die bestaan uit ‘slips’ en sinds 1980 in databanken). Er zijn verschillende soorten corpora die een aspect van taal bevatten. Voorbeelden hiervan zijn: historical corpus, general corpus, etc. … Elk soort corpus heeft zijn eigen nut en kenmerken.
Belangrijk om te vermelden is dat de meningen over wat corpus linguïstics is verschillen. Sommige vinden het een methodologisch fundament om taal te onderzoeken en anderen vinden het een discipline op zichzelf.
COBUILD corpus
Collins Birmingham University International Language Database (4,5 miljard woorden) General corpus
BNC
British National Corpus (100 miljoen woorden) General corpus
Google Books
34 miljard woorden General corpus
General corpora
Het doel van general corpora is een snapshot of algemeen overzicht van een taal of een taalvariatie zoals die ooit in de geschiedenis werd gesproken. Er wordt zoveel mogelijk rekening gehouden met het overrepresenteren en onderrepresenteren van taalelementen. Alles wordt zo gebalanceerd mogelijk weergegeven om zo representatief mogelijk een taal vatten. Dit zijn grote databanken met vaak miljoenen of miljarden woorden.
COCA
Corpus of Contemporary American English general corpus
ICE
International corpus of English parsed corpus
Specialized corpora
Het doel van specialized corpora is een afgebakend onderdeel van een taal te omvatten. Die onderdelen komen in de vorm van een enkel genre (e.g. kranten), een enkel register (e.g. academisch taalgebruik), een enkele modaliteit of een volledig werk van een individu (e.g. een volledig werk van Shakespeare en Proust). Dit zijn vaak kleinere corpora en kunnen volledig zijn. Het streven naar een representatieve balans blijft net zoals in general corpora.
Historical corpora
Het doel van historical corpora is een snapshot van een taal omvatten uit verschillende periodes, gebaseerd op historische periodes. Het kan gaan over een taal doorheen de middeleeuwen of zelfs een specifiek genre binnen een bepaalde periode. Met de recente evolutie van technologie kunnen we gesproken taal ook analyseren aan de hand van chatrooms en dergelijke. Deze computer-mediated genres zijn vrij recent en bij gevolg nog klein. Een andere manier van gesproken taal te representeren in een historisch corpus is via criminele procedures uit bepaalde periodes. Meerendeel van historische corpora blijft representatief voor geschreven taal.
Parsed corpora
Het doel van parsed corpora is bepaalde structuren en grammaticale categorieën weergeven. Dit zijn kleinere corpora en zijn alleen nuttig als dat het fenomeen weergeeft dat je zoekt.
Learner corpora
Learner corpora geven de taal weer van sprekers die nog niet volledig de taal beheersen. Tot deze categorie behoren kinderen die hun thuistaal ontwikkelen en elke stage in de ontwikkeling wordt weergeven (e.g. kinderen tussen de 6 - 12 jaar oud). Ook behoort tweede taal studentenspraak en schrijven (e.g. LINDSEI bevat essays van studenten in het Engels met een andere taal als thuistaal).
CHILDES corpus
Child Language Database Exchange System learner corpus
LINDSEI
Louvain International Database of Spoken English Interlanguage learner corpus
Multilingual corpora
Multilingual corpora bevatten teksten die verschillende talen gelijk vertegenwoordigen in aantal genres en aantal woorden. Een comparable corpus is een multilingual corpus dat het gebruik van de talen vergelijkt binnen een bepaald genre of meerdere genres. Een parallel corpus is een corpus dat overeenkomende zinnen woorden en uitdrukkingen van talen weergeeft.
Multimedia corpora
Transcripties gemaakt op basis van video- en audio-opnames vormen een corpus, vaak voor Minority languages en endangered languages.