Linguistics: an introduction Part II Investigating language in use: corpus linguistics Flashcards

1
Q

Corpus linguïstics

A

Een samenbundeling van het werkelijke gebruik van een taal in de vorm van een corpus (voor 1980 in boeken die bestaan uit ‘slips’ en sinds 1980 in databanken). Er zijn verschillende soorten corpora die een aspect van taal bevatten. Voorbeelden hiervan zijn: historical corpus, general corpus, etc. … Elk soort corpus heeft zijn eigen nut en kenmerken.

Belangrijk om te vermelden is dat de meningen over wat corpus linguïstics is verschillen. Sommige vinden het een methodologisch fundament om taal te onderzoeken en anderen vinden het een discipline op zichzelf.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

COBUILD corpus

A

Collins Birmingham University International Language Database (4,5 miljard woorden) General corpus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

BNC

A

British National Corpus (100 miljoen woorden) General corpus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Google Books

A

34 miljard woorden General corpus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

General corpora

A

Het doel van general corpora is een snapshot of algemeen overzicht van een taal of een taalvariatie zoals die ooit in de geschiedenis werd gesproken. Er wordt zoveel mogelijk rekening gehouden met het overrepresenteren en onderrepresenteren van taalelementen. Alles wordt zo gebalanceerd mogelijk weergegeven om zo representatief mogelijk een taal vatten. Dit zijn grote databanken met vaak miljoenen of miljarden woorden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

COCA

A

Corpus of Contemporary American English general corpus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

ICE

A

International corpus of English parsed corpus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Specialized corpora

A

Het doel van specialized corpora is een afgebakend onderdeel van een taal te omvatten. Die onderdelen komen in de vorm van een enkel genre (e.g. kranten), een enkel register (e.g. academisch taalgebruik), een enkele modaliteit of een volledig werk van een individu (e.g. een volledig werk van Shakespeare en Proust). Dit zijn vaak kleinere corpora en kunnen volledig zijn. Het streven naar een representatieve balans blijft net zoals in general corpora.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Historical corpora

A

Het doel van historical corpora is een snapshot van een taal omvatten uit verschillende periodes, gebaseerd op historische periodes. Het kan gaan over een taal doorheen de middeleeuwen of zelfs een specifiek genre binnen een bepaalde periode. Met de recente evolutie van technologie kunnen we gesproken taal ook analyseren aan de hand van chatrooms en dergelijke. Deze computer-mediated genres zijn vrij recent en bij gevolg nog klein. Een andere manier van gesproken taal te representeren in een historisch corpus is via criminele procedures uit bepaalde periodes. Meerendeel van historische corpora blijft representatief voor geschreven taal.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Parsed corpora

A

Het doel van parsed corpora is bepaalde structuren en grammaticale categorieën weergeven. Dit zijn kleinere corpora en zijn alleen nuttig als dat het fenomeen weergeeft dat je zoekt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Learner corpora

A

Learner corpora geven de taal weer van sprekers die nog niet volledig de taal beheersen. Tot deze categorie behoren kinderen die hun thuistaal ontwikkelen en elke stage in de ontwikkeling wordt weergeven (e.g. kinderen tussen de 6 - 12 jaar oud). Ook behoort tweede taal studentenspraak en schrijven (e.g. LINDSEI bevat essays van studenten in het Engels met een andere taal als thuistaal).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

CHILDES corpus

A

Child Language Database Exchange System learner corpus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

LINDSEI

A

Louvain International Database of Spoken English Interlanguage learner corpus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Multilingual corpora

A

Multilingual corpora bevatten teksten die verschillende talen gelijk vertegenwoordigen in aantal genres en aantal woorden. Een comparable corpus is een multilingual corpus dat het gebruik van de talen vergelijkt binnen een bepaald genre of meerdere genres. Een parallel corpus is een corpus dat overeenkomende zinnen woorden en uitdrukkingen van talen weergeeft.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Multimedia corpora

A

Transcripties gemaakt op basis van video- en audio-opnames vormen een corpus, vaak voor Minority languages en endangered languages.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Corpora for intercultural interactions

A

Deze corpora bevatten interacties in het Engels tussen mensen die Engels niet als thuistaal hebben.

17
Q

The web as corpus

A

Het WereldWijdeWeb wordt een corpus wanneer de bewust uitgekozen teksten van het correcte soort worden samengebundeld.

18
Q

How do you build your own corpus?

A

STAPPENPLAN:
1. Formuleer de juiste onderzoeksvraag en bijvragen.
2. Controleer als er reeds geen corpus/corpora bestaan die kunnen helpen.
3. Bepaal hoe groot het corpus moet zijn. Houd rekening met volledigheid/representativiteit en practicalia (hoe veel tijd en middelen heb ik?).
4. Bepaal hoe de teksten verzameld zullen worden (officieel domein <-> privé corpus).
5. Bepaal hoe de teksten opgeslagen zullen worden, opdat de juiste software wordt gebruikt om tot verlangde bestandsformaat te komen. Houd hierbij rekening met markup (data toevoegen aan data die gebruikt worden in het corpus) en transcriptie van audio en videobestanden (hoe ga je te werk en hoe nauwkeurig moet te transcriptie zijn? Link de bestanden met de transcriptie).
6. Annoteer het corpus voor semantische of andere informatie toe te voegen (part-of-speech helpt bij gerichte zoekopdrachten).
7. Houd rekening met ethiek. Copyright vraagt voor toestemming. Privacyregels (e.g. GDPR wetten in de EU) zijn in veel landen anders, dus zorg dat de wetten gevolgd worden. Wie anoniem wil zijn, blijft anoniem in het corpus.

19
Q

Software for analysing a corpus

A

Sommige general corpora hebben build-in software voor corpusanalyse, maar niet alle corpora hebben dat. AntConc, Sketch Engine en WordSmith Tools zijn computersoftware die helpen bij het ontginnen van informatie uit een corpora. Het toont sommige van de meest basale soorten informatie die men er uit zou willen halen en toont hoe men het te pakken krijgt. TIP: kijk toch ook naar andere opties dan degene die de software aanhaalt, want er komt informatie bij die de software of het corpus niet bevatten of tonen.

20
Q

Lemma

A

De vorm die een set woordvormen van een lexeem voorstelt.

21
Q

Range

A

Het aantal teksten waar iets in voorkomt

22
Q

regular expressions

A

De opeenvolging van gestandaardiseerde karakters die het zoekpatroon in een tekst of corpus specificeren.

23
Q

Keywords

A

Woorden die ongebruikelijk veel (positive keyword) of weinig (negative keyword) voorkomen in een tekst of corpus ten opzichte van het referentie corpus.

24
Q

Keyness

A

Het relatieve belang van de verschillen.

25
Q

Concordance software

A

De keren dat een woord of zin voorkomt geplaatst in context, gewoonlijk voorafgegaan en opgevolgd door een aantal woorden. Het doel is om betekenis te achterhalen, meer dan het doel is om frequentie te achterhalen.

26
Q

Collocations

A

Woorden die statistisch gezien vaak samen voorkomen. Het wordt gebaseerd op frequentie en de kracht ervan, verschillende software tools geven de metingen voor de kracht anders weer.

27
Q

Clusters

A

Een cluster is een samenstelling van woorden die in een verschillende volgorde voorkomen (e.g. salt and pepper vs pepper and salt). Clusters samen met collocaties helpen bij het vinden van synoniemen.

28
Q

Limitations

A

Corpusonderzoek neemt zeer veel tijd in beslag, daarom is het verstandig om uw zoekopdrachten zo gefocust en simpel mogelijk te houden. Het kan voorkomen dat je zoekopdracht te uitgebreid is, dan word je overweldigd het aantal hits aangegeven door de software die je handmatig zal moeten afgaan. Houd het dus kort en bondig.