Arvutilingvistika

Allikas: Vikipeedia
Mine navigeerimisribale Mine otsikasti

Arvutilingvistika ehk arvutuslingvistika on keeleteaduse ja arvutiteaduse ühisosa, mis uurib, kuidas inimkeelt arvuti abiga kirjeldada ja analüüsida. Arvutuslingvistikal on teoreetiline ja rakenduslik pool. Selle rakendused on seotud valdkonnaga, mida kutsutakse keeletehnoloogiaks [1]. Arvutuslingvistika põhiülesanded võib jagada kaheks – keele analüüs ja keele genereerimine ehk süntees.

Keeletehnoloogia ja arvutilingvistika tegelevad mõlemad loomuliku keele automaattöötlusega, kuid arvutilingvistika läheneb probleemidele teoreetilisema ja keeletehnoloogia rakenduslikuma nurga alt [2].

Ajalugu[muuda | muuda lähteteksti]

Arvutilingvistika kui üks tehisintellekti suundadest tekkis XX sajandi 50. aastatel. Selle arengu põhietapid on suures osas samad mis tehisintellekti arenguetapid.

Tehisintellekti ja arvutilingvistika arengu tõukeks oli arvutite ilmumine 1940. aastatel ja nende edukas kasutamine Teises maailmasõjas. Usutakse, et tehisintellekti ülesannete mõistmise esimeseks etapiks on Alan Turingi artikkel "Kas masinad suudavad mõelda?" ("Can machines think?"). Selles klassikalises artiklis oletab Turing, et tehisintellektist saab rääkida siis, kui inimene ei suuda arvuti ja inimkõne vahel vahet teha. Sellest ideest on kujunenud üldtuntud Turingi test, mis on kirjeldatud artiklis "Arvutusmasinad ja intellekt" [3] ("Computing machinery and intelligence"), mis ilmus aastal 1950 filosoofiaajakirjas Vaim (ingl Mind).

Uue arvutite põlvkonna ja programmeerimiskeelte ilmumisega hakati tegelema masintõlkega. Tegelikult olid esimesed ideed masintõlke kohta väljendatud juba 1947. aastal Ameerika Ühendriikides kohe pärast esimeste arvutite ilmumist. Esimene masintõlke avalik demonstratsioon toimus aga 7. jaanuaril 1954 ja seda nimetati "Georgetowni eksperimendiks" (ingl Georgetown-IBM experiment), sest seda korraldas Georgetowni ülikool ja IBM. Eksperiment koosnes sellest, et masin tõlkis automaatselt üle 60 venekeelse lause inglise keelde.

Masintõlke näited Georgetowni eksperimendist[muuda | muuda lähteteksti]

Vene keel (lause tõlkimiseks) Inglise keel (masintõlge) Eesti keel (inimtõlge)
Мы передаем мысли посредством речи. We transmit thoughts by means of speech. Meie edastame mõtteid kõne abil.
Величина угла определяется отношением длины дуги к радиусу. Magnitude of angle is determined by the relation of length of arc to radius. Nurga suurus määratakse kaare pikkuse ja raadiuse suhtega.
Международное понимание является важным фактором в решении политических вопросов. International understanding constitutes an important factor in decision of political questions. Rahvusvaheline mõistmine on oluline faktor poliitiliste küsimuste lahendamises.

ALPAC 1966. aasta aruanne[muuda | muuda lähteteksti]

1964. aastal loodi Ameerika Ühendriikides komitee ALPAC ehk loomulike keelte automaattöötluse konsultatiivkomitee (ingl Automatic Language Processing Advisory Committee), et hinnata arvutuslingvistika ja masintõlke senist edu ja saavutusi. 1966. aastal avaldatud aruandes väljendas komitee tugevat skeptilisust masintõlke uuringute edu kohta ja rõhutas arvutuslingvistika algtõdedel põhineva teadustöö olulisust. Peagi pärast aruande ilmumist vähendas valitsus drastiliselt masintõlke kui teadusharu rahastamist, aeglustades masintõlke uurimise edasist arengut. ALPAC-i 1966. aasta aruande puhul on oluline, et see käsitles ainult üht masintõlke kasutamise eesmärki: Ameerika Ühendriikide valitsuse ja sõjaväe võimalusi venekeelsete dokumentide analüüsimisel. Aruanne jättis kõrvale masintõlke ja masintõlkesüsteemide muud funktsioonid ning imelikul kombel ei käsitletud ka ühtki teist võõrkeelt.[4] Aruande avaldamise tagajärjel langes masintõlge Ameerikas ligemale kümneks aastaks arvutilingvistika üheks vähem tähtsaks aspektiks. Seevastu Kanadas, Prantsusmaal ja Saksamaal uuringud jätkusid.[5] Olgugi et ALPAC 1966. aasta aruanne andis tugeva löögi masintõlke arengule, ei tähendanud see arvutilingvistika olulisuse vähenemist teaduses – rohkem rõhku hakati lihtsalt panema teistele, teoreetilisematele, külgedele.

Keelemudeli hindamine[muuda | muuda lähteteksti]

Arvutuslingvistika rakendusena arendatakse loomuliku keele mudeleid. Iga sellise mudeli arendusel on oluline seada paika hinnangumeetod, mis sätestaks arenduse suuna. Hinnangumeetodit võib koostada mitmel viisil; näiteks võib hinnangumeetod olla sisemine või välimine. Sisemise hinnangumeetodi puhul defineeritakse eelnevalt etalontulemus ja võrreldakse keelemudelite tulemusi selle etaloniga; välimise hinnangumeetodi puhul ei ole etaloni ja erinevate keelemudelite tulemusi võrreldakse otse üksteisega. Sisemist hindamist on lihtsam automatiseerida, kuid keerukamate eesmärkide korral pole etaloni defineerimine triviaalne. Näiteks kui eesmärgiks on luua programm dialoogilausete automaatseks semantilise "eesmärgiga" märgendamiseks, saaks etaloni defineerida käsitsi dialoogikatkendeid märgendades, sest arvuti keeleoskustaseme lähendamine inimese omale on üks arvutuslingvistika põhiülesandeid – ent ka erinevad inimesed võivad parima võimaliku märgenduse suhtes eriarvamustele jääda.

Kasutusalad[muuda | muuda lähteteksti]

  • teksti grammatiline analüüs ja süntees
  • suulise kõne süntees ja tuvastus
  • õigekeelsuse ja stiili kontroll
  • masintõlge
  • infosüsteemid
  • dokumenditöötlus
  • inimkeelne dialoog arvutiga
  • tõlkija või keeleõppija abivahendid

[6]

Vaata ka[muuda | muuda lähteteksti]

Viited[muuda | muuda lähteteksti]