Texta toolkit

Allikas: Vikipeedia

Texta toolkit on avatud lähtekoodiga tööriistaraamistik vabatekstiliste (suur)andmetega tutvumiseks ja nende analüüsimiseks.[1] Tarkvara on mõeldud erinevatest valdkondadest pärineva informatsiooni töötlemiseks.[1]

Texta toolkit kasvas välja rakendusuuringutest STACCis ning selle arendust on toetatud ka Eesti keeletehnoloogia riiklikust programmist.[2] Tarkvara arendab Eesti ettevõte Texta OÜ[3], mis on esimene loomuliku keele töötlusele ja selle rakendamisele keskendunud keeletehnoloogia idufirma Eestis.[4]

Tarkvara on kirjutatud Pythoni keeles ning toetub Elasticsearchile. Olulisemad Pythoni teegid on Django, Gensim ja EstNLTK.[5]

Esimene koodivaramusse lisandunud krattide baaskomponent on just Texta toolkit, mida tänaseks on kasutanud mitmed asutused oma tööprotsesside tõhustamiseks ja rutiinsete tegevuste automatiseerimiseks.[6]

Texta toolkiti võimalused[muuda | muuda lähteteksti]

  • Dokumentide otsing
  • Sarnaste dokumentide otsing
  • Dokumentide kokkuvõtted
  • Korpusespetsiifiliste sõnastike loomine
  • Fraaside otsimine
  • Informatsiooni eraldamine
  • Dokumentide klassifitseerimine[5]

Texta toolkit 2.0[muuda | muuda lähteteksti]

Versioon 2.0 on 04.03.2020 avaldatud graafiline kasutajaliides, mis sisaldab projektipõhiseid ressursse. Lisandus ka uus back end, kiirem ja lihtsam integratsioon süsteemidega ning kogu liides on kättesaadav ja töötab rakendusliidese (API) kaudu. Täiustati andmemudel ja lisati võimalus masinõppemudelite täppisseadistamiseks. Võimalik on ka Apache Tika dokumentide töötlemiseks ja efektiivsemaks dokumentide lisamiseks toolkitti ning dokumentidelt optiline tekstituvastamine. Eelnev tähendab lihtsamat dokumentide ja memode märgendamist, mis aitab kiirendada ja efektiivistada kliendivestlusi, mis saavutatakse e-kirjade märgenduse, automaatse suunamise kui ka automaatselt genereeritud vastuste ning infoeralduse kaudu viied vajalik osa e-kirjast, tekstist, dokumendist, PDF-ist jms. süsteemi.[2]

Kasutuslood[muuda | muuda lähteteksti]

Haridus- ja Teadusministeerium viis Texta tööriista abil läbi dokumendihalduse auditi, mille eesmärk oli tuvastada dokumendid, mis on lubamatult avalikustatud (nt asutusesisesed dokumendid, isikuandmed jms). Justiitsministeerium koostöös Registrite ja Infosüsteemide Keskusega eemaldasid Texta abil ligi 80 000 kustunud karistusega kohtulahendist isikuandmed ja avalikustasid need seejärel uuesti kohtute infosüsteemis.[2]

Päringute koostamine[muuda | muuda lähteteksti]

Päringu koostamine kohtulahendite näitel toimub Textas järgmiselt:

  1. Tunnuse valimine, mille järgi tulemusi filtreerida
  2. Kui tunnusel on lõpmatu arv võimalikke väärtusi, kirjutada soovitud väärtus(ed) selleks ettenähtud tekstiväljale. Kui tunnusel on piiratud arv võimalikke väärtusi, on neid võimalik tekstivälja sisestada ka rippmenüüst valides.
  3. Kui tekstivälja sisestati väärtused x1, x2, … , xn, siis järgmisena valida, kas nendest väärtustest peavad tulemusena antud kirjetes esinema kõik, mis on loogiliste operaatorite kaudu väljendatav kui x1 & x2 & … & xn, vähemalt üks neist ehk x1 v x2 v … v xn või mitte ükski neist ehk ¬x1 & ¬x2 & … & ¬xn.
  4. Valida, kas sisestatud väärtused võivad esineda eraldi, fraasina või fraasi prefiksina. Näiteks, kui otsitavaks väärtuseks on sisestatud “määratud karistus”, siis lubades sõnade tekstis eraldi esinemine, antakse tulemusena kirjed, mis sisaldavad sõnu “määratud” ja “karistus” mistahes järjekorras ja üksteisest mistahes kaugusel. Kui lubada sõnade esinemist vaid fraasina, antakse tulemusena kirjed, milles fraas “määratud karistus” esineb täpselt etteantud kujul. Valides antud sõnade esinemise fraasi prefiksina, võib fraasi viimasele sõnale järgneda veel muid tähemärke, näiteks “määratud karistusena” ja “määratud karistuseks”.
  5. Kui otsitakse fraasi, valida, mitu sõna võib sisestatud fraasis olevate sõnade vahel olla (0 kuni 5). Näiteks, kui fraas on “määratud karistus” ja väärtuseks valitakse 1, saadakse tulemusena kirjed, kus esinevad näiteks fraas “määratud karistus” või “määratud talle karistus”.[7]

Viited[muuda | muuda lähteteksti]

  1. 1,0 1,1 "Texta õpipaja". Originaali arhiivikoopia seisuga 3.09.2017. Vaadatud 15.12.2020.
  2. 2,0 2,1 2,2 "Kratijupid". Vaadatud 08.12.2020.
  3. "Texta Toolkit". Vaadatud 08.12.2020.
  4. "Texta". Vaadatud 15.12.2020.
  5. 5,0 5,1 "Texta õpipaja slaidid". Vaadatud 15.12.2020.[alaline kõdulink]
  6. "Esimene ja uutlaadi era- ja riigisektori koostööst sündinud kratijupp jõudis koodivaramusse". Originaali arhiivikoopia seisuga 28.10.2020. Vaadatud 15.12.2020.
  7. Katrin Valdson. Mustripõhine informatsiooni eraldamine Eesti kohtulahenditest. Vaadatud 15.12.2020.