Korpuslingvistika

Allikas: Vikipeedia

Korpuslingvistika on keeleteaduse suund, mis tegeleb loomuliku keele tekstikogude (korpuste) koostamise ja töötlemisega.

Ajalugu[muuda | redigeeri lähteteksti]

Esimeseks suureks arvutikorpuseks on Browni korpus (inglise Brown Corpus), mis loodi 1960-aastatel Browni Ülikoolis ja sisaldas 500 teksti fragmenti, igas 2000 sõna, mis olid avaldatud USAs inglise keeles 1961. aastal. See 1 miljoni sõna sisaldav korpus sai standardiks korpuste loomisel teistes keeltes. Analoogilise mudeli järgi loodi näiteks 1980-aastatel Uppsala Ülikoolis vene korpus.

Miljonisõnaline maht on piisav ainult üsna sagedaste sõnade leksikograafiliseks kirjeldamiseks, kuna sõnad ja nende grammatilised konstruktsioonid ei kordu sellises mahus väga sageli. Näiteks niisugused igapäevased sõnad nagu inglise polite (viisakas) või sunshine (päikesepaiste) kohtuvad Browni korpuses ainult 7 korda, väljend polite letter ainult üks kord, aga niisugused püsivad väljendid nagu polite conversation, smile ja request mitte kordagi.

Nimetatud põhjustel ning seoses arvutustehnika võimsuste kasvamisega tekkis võimalus töötada suurema mahuga tekstidega. 1980-aastatel tehti mitu katset koostada suuremaid korpuseid. Üks neist oli Birmingemi Ülikooli projekt nimega Bank of English.

Välislingid[muuda | redigeeri lähteteksti]