EstNLTK

Allikas: Vikipeedia

EstNLTK on teekide kogumik, mis on mõeldud eestikeelsete tekstide töötluseks. EstNLTK on kirjutatud programmeerimiskeeles Python.[1]

EstNLTK on projektipõhiselt koostamisel Tartu Ülikoolis Sven Lauri juhtimisel. Projektide tulemuse eesmärgiks on ühendada juba varem loodud eesti keele töötluse programmid uute loodavate ja parandatud versioonidega ning teha ühiselt kättesaadavaks kõigile soovijatele. Arendamist finantseerib Haridus- ja teadusministeerium, riikliku programmiga Eesti keeletehnoloogia.[2]

EstNLTK võimalused[muuda | muuda lähteteksti]

Aastal 2016 lõppenud projekti tulemusena on teegi erinevaid versioone võimalik installida Anaconda paketihaldussüsteemist. Versioonis 1.4 on liidestatud olemasolevad tööriistad ühe teegi alla. Keeletehnoloogilised operatsioonid vahetavad andmeid läbi Pythoni klasside. Versioonis 1.6 on suurendatud rakenduste tõrkekindlust ning lisatud on töövoog, mis parandab tüüpvigu. Veel on mugavad Eesti WordNet-i ja Vikipeedia kasutamisvõimalused ning mitmed rakendused andmetüüpide selekteerimiseks ja visualiseerimiseks.[2]

Aastal 2017 lõppenud projekti tulemusena on versioon 1.6 uuendatud ning vastava litsentsi alusel kõigile kättesaadav. Lisaks 1.4 versiooni funktsioonidele on võimalik analüüsida ka kirjakeelest erinevaid tekste, mille jaoks on kasutatud lihtsustus- ja normaliseerimisreegleid, paigutatuna META-SHARE'i keskkonda. Olemas on ka võimalused sõnestuse mitmesuse ja fraaside jaoks. Operatsioone on hakatud liidestama analüüsikeskkonnaga WebLicht.[3]

EstNLTK tööriistad[muuda | muuda lähteteksti]

EstNLTK teek võimaldab sõnapiiride ja (osa)lausepiiride tuvastamist, sõnade algvormide, sõnaliikide ning morfoloogiliste analüüside ja sünteeside määramist. Veel tuvastab see nimeolemeid ja ajaväljendeid, esitades ka viimaste semantikat. Olemas on liidestus eesti WordNet-iga ning võimalus teha pindsüntaktilist või sõltuvussüntaktilist analüüsi.[1]

Texts-viewer on veebitööriist, mille abil saab tekste käsitsi mustrite alusel märgendada ja eraldusmustreid testida.[1]

Volcanoplot on käsureatööriist, mille abil saab võrrelda visuaalselt kahte CSV-sagedusloendit. Antud tööriist on HTML-väljundiga.[1]

Cluster-labelling-plot on Jupyteri-põhine andmepunktiklastrite klassifitseerimise tööriist, mille abil saab võrrelda ja/või hinnata tulemusi.[4]

Textclassifier on tööriist andmete kategoriseerimiseks.[5]

Ner-tagger on veebitööriist, mille abil saab eelkõige nimeolemeid märgendada ning teksti annoteerida.[1]

Gap-tagger on veebipõhine tööriist, mille abil saab lasta kasutajal lauses täita lünk etteantud valikute põhjal.[1]

Episode-miner on tööriist, mille abil on võimalik leida tekstist tihemini esinevad (tähe-/sõna-)ühendid.[1]

Pattern-examiner on tööriist, mille abil saab hinnata tekstihulkade sarnasust, neid klasterdada ja filtreerida.[1]

Edasiarendused[muuda | muuda lähteteksti]

Lisaks olemasolevatele võimalustele arendatakse teekide kogumikku pidevalt edasi. Praegu on arendamisel suunad, et eestikeelsete tekstide töötlust saaksid teha ka mitteprogrammeerijad. Veebiteenuste abil oleks võimalik analüüsida tekste ka graafilises keskkonnas WebLicht.[6]

Samuti arendatakse erinevate tekstitöötluste võimaluste hulka ning parandatakse olemasolevaid võimalusi erandite puhuks.[6]

Kasutusalad[muuda | muuda lähteteksti]

EstNTLK on loodud kasutamiseks kõigile soovijatele. Hetkel on kõige suuremad kasutusalad teadustöös, peamiselt Tartu Ülikooli keeletehnoloogia ja arvutilingvistika uurimisrühmades.

Tartu Ülikoolis loetakse aineid, mille eesmärk on õpetada antud teeki kasutama, õppematerjalid on internetis avalikult kättesaadavad.[7]

Vaata ka[muuda | muuda lähteteksti]

Viited[muuda | muuda lähteteksti]

  1. 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 "EstNLTK". Vaadatud 30.10.2018.
  2. 2,0 2,1 ""Riiklik programm: Eesti keeletehnoloogia" projekt EKT57". Vaadatud 30.10.2018.
  3. ""Riiklik programm: Eesti keeletehnoloogia" projekt EKT110". Vaadatud 30.10.2018.
  4. "Cluster-labelling-plot". Vaadatud 30.10.2018.
  5. "Textclassifier". Vaadatud 30.10.2018.
  6. 6,0 6,1 ""Eesti keeletehnoloogia: Baastehnoloogiad ja -ressursid" projekt EKTB14". Vaadatud 30.10.2018.
  7. "estnltk 1.6.0b0". Vaadatud 30.10.2018.

Välislingid[muuda | muuda lähteteksti]