Korpuslingvistika

Allikas: Vikipeedia

Korpuslingvistika on keeleteaduse suund, mis tegeleb loomuliku keele tekstikogude (korpuste) koostamise ja töötlemisega.

Ajalugu[muuda | redigeeri lähteteksti]

Esimeseks suureks arvuti korpuseks on Browni korpus (ingl. Brown Corpus), mis oli loodud 1960-aastatel Browni Ülikoolis ja sisaldas 500 teksti fragmenti, igas 2000 sõna, mis olid avaldatud inglise keeles USAs 1961. aastal. See, 1 miljoni sõna sisaldav, korpus sai standardiks teistes keeltes korpuste loomiseks. Analoogilise mudeli järgi oli loodud vene korpus 1980-aastatel Uppsala Ülikoolis.

1 000 000 sõna suurus on piisav ainult üsna sagedaste sõnade leksikograafiliseks kirjeldamiseks,kuna sõnad ja nende grammatilised konstruktsioonid keskmise sagedusega kohtuvad mitu korda miljon sõnades. Seega, niisugused igapäevased sõnad, nagu ingl. polite (viisakas) või ingl. sunshine(päikesepaiste) kohtuvad Browni korpuses ainult 7 korda,väljend ingl. polite letter ainult üks kord, aga niisugused püsivad väljendid nagu ingl. polite conversation, smile, request mitte kordagi.

Nimetatud põhjustel ning seoses arvutustehnika võimsuste kasvamisega tekkis võimalus suurema mahu tekstidega töötada. 1980-aastatel olid mitu katsed teha suurema korpuse ette võtnud. Üks neist on Birmingemi Ülikooli (ingl. University of Birmingham) projekt nimega ingl. Bank of English.

Välislingid[muuda | redigeeri lähteteksti]