Kasutaja:JanarSaks/EstSum

Allikas: Vikipeedia

EstSum, mille autor on Kaili Müürisep, on eestikeelsete tekstide sisukokkuvõtja, mis on loodud rootsi keele sisukokkuvõtja SWESUM eeskujul. EstSum kasutab kokkuvõtte genereerimiseks väljavalimismeetodit, kuid on orienteeritud veebis avaldatud uudiste ja ajaleheartiklite indikatiivsele sisukokkuvõttele.[1] Selle algset versiooni on võimalik katsetada vanade artiklitega (2007–2008) veebis.

Kirjeldus[muuda | muuda lähteteksti]

EstSum koosneb kolmest moodulist: HTML-konverter, lausestaja ja väljavõtete tegija. HTML-konverter eemaldab sisukokkuvõtte jaoks ebaolulised HTML-märgendid, normaliseerib ristuvad märgendid, eemaldab tabelid ja konverteerib sisendi SGML-formaati. Uues formaadis märgendatakse tekstis oluline šriftiinformatsioon, autorid, pildiallkirjad ja eri pealkirjad.[1]

EstSum genereerib sisukokkuvõtteid kasutades H. P. Edmundsoni lausetele kaalu arvutamise meetodile sarnast valemit:

,

kus on lause kaal, on positsioonipõhine skoorifunktsioon, on formaadipõhine skoorifunktsioon, on sõnasageduste põhine skoorifunktsioon ja , ja on konstandid. Tunnuste kaalud ja konstantide väärtused on määratud väikese testkorpuse (20 ajalehe Postimees artikli käsitsi koostatud sisukokkuvõtet) alusel. Testkorpus näitas, et kõige tähtsam on positsioonipõhine kaal ja kõige ebaolulisem on sõnasagedust arvestav kaal. Samas formaadipõhine kaal oli oluline ainult üksikutes lausetes, sest see arvestas lause kirjatüüpi ja lauses olevaid kirjavahemärke.[1]

EstSum kasutab ära asjaolu, et kokkuvõtte jaoks vajalikud laused asuvad enamasti lõigu alguses ning suurendab seeläbi ka lõikude esimeste lausete kaalu. Samuti eelistab see lauseid, mis on kirjutatud kaldkirjas või rasvaselt. Samas jutu-, hüüu- ja küsimärgid alandavad lause kaalu. Lisaks arvestatakse lause kaalu leidmisel ka võtmesõnu, eriti sõnu, mis leiduvad pealkirjades. Samas võtmesõnadest eemaldatakse sõnad, mis on üldiselt sagedased. Selleks kasutakse sõnaloendit, kus on märgitud kõige sagedasemad sõnad eesti keeles, mis saadi 400 000 ajaleheartikli läbitöötlemisel.[2]

EstSum kasutab väljavalimismeetodit, mis tähendab, et see valib lauseid lähtetekstist, et genereerida kokkuvõte. Sellise meetodi kasutamise tagajärjel võib aga juhtuda, et genereeritud kokkuvõte ei ole sidus. See tähendab, et lausetes võivad esineda asesõnad, mis kokkuvõtte sisust lähtudes ei viita millelegi.

Tulemuslikkus[muuda | muuda lähteteksti]

Kui Müürisep hindas enda algoritmi tulemuslikkust, siis leidis ta, et algoritmi valitud laused kattuvad ~60% ulatuses tema valitud lausetega. Samuti on EstSumi tulemuslikkust analüüsinud Keili Sellik enda bakalaureusetöös, kus ta leidis, et EstSumi genereeritud kokkuvõtted kattusid keskmiselt 65,29% ulatuses tema enda tehtud kokkuvõtetega. Lisaks hindas Sellik EstSumi tulemuslikkust ka ROUGE programmiga, mis andis tulemuseks, et lausete kattuvus on keskmiselt 68,96%.[3]

Tulevikuplaanid[muuda | muuda lähteteksti]

EstSumi autori esmane soov on lisada programmile lingvistiline moodul. Selle mooduli lisamine võimaldaks programmil arvestada sõnade algvormidega. See aga võimaldaks teha võtmesõnadest parema statistika ning seeläbi ka tõsta sõnasageduste kaalu mõju. Samuti soovib autor rakendada programmile asesõnade lahutamise algoritme, et suurendad genereeritud kokkuvõtete siduvust.[2]

Viited[muuda | muuda lähteteksti]

  1. 1,0 1,1 1,2 Müürisep, Kaili. Eestikeelsete tekstide sisukokkuvõtjast EstSum. Keel ja arvuti. Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 6.(Toim. M. Koit, R. Pajusalu, H. Õim) lk 115-125 Tartu 2006
  2. 2,0 2,1 Müürisep, Kaili, Mutso, Pilleriin. ESTSUM - Estonian newspaper texts summerizer. Proceedings of The Second Baltic Conference on Human Language Technologies. Tallinn 2005. Kättesaadav: https://www.e-varamu.ee/item/HQTHG5K675XVZW36DYGYJ5LLYWSJLPOD
  3. Sellik, Keili. Automaatse sisukokkivõtja töö hindamine. Bakalaureusetöö. Tartu 2008. Kättesaadav: http://lepo.it.da.ut.ee/~kaili/juhendamised/Baka_Sellik.pdf

Välislingid[muuda | muuda lähteteksti]

  1. Loe SWESUMi kohta.
  2. Katseta EstSumi siin.