Statistiline masintõlge

Statistiline masintõlge (SMT) on masintõlke paradigma, kus tõlked genereeritakse statistiliste mudelite abil. Parameetrid selle jaoks tuletatakse kakskeelse paralleelkorpuse analüüsi põhjal. Lisaks statistilisele masintõlkele on olemas ka reeglipõhine masintõlge ja näitepõhine masintõlge.^[1]

1949. aastal tutvustas Warren Weaver esimesi masintõlkeideid,^[2] sealhulgas ideed rakendada Claude Shannoni informatsiooniteooriat.

Idee[muuda | muuda lähteteksti]

Statistilise masintõlke idee pärineb informatsiooniteooriast. Sisendtekst tõlgitakse vastavalt tõenäosusjaotusele p(e|f), nii et e on tekst lähtekeeles (näiteks inglise) ja f on teksti tõlge sihtkeeles (nt prantsuse).

$p(e|f)$ tõenäosusjaotuse modelleerimise probleemile on mitmeti lähenetud. Üks lähenemine, mida on hea arvutis implementeerida, on rakendada Bayesi teoreemi, mis on $p(e|f)\propto p(f|e)p(e)$ , kus tõlkemudel $p(f|e)$ on tõenäosus, et lähtetekst on sihtteksti tõlge ja keelemudel $p(e)$ on selle teksti esinemise tõenäosus sihtkeeles. See jagab masintõlke probleemi kaheks alamprobleemiks: tõlkimine ja väljundi keelelise sujuvuse tagamine. Parima tõlke ${\tilde {e}}$ leidmist tehakse võttes kõige suurema tõenäosusega tõlge:

{\tilde {e}}=arg\max _{e\in e^{*}}p(e|f)=arg\max _{e\in e^{*}}p(f|e)p(e)

.

Selle valemi rangeks implementeerimiseks peaks proovima läbi kõik võimalikud kombinatsioonid $e^{*}$ sihtkeeles. Otsingu tõhus teostamine on masintõlke dekoodri ülesanne, mis kasutab lähteteksti, heuristikat ja teisi meetodeid, et piirata otsinguruumi ja samal ajal hoida kvaliteet vastuvõetav.

Kuna tõlkesüsteemis ei ole võimalik salvestada kõiki sihtkeele tekste ja nende tõlkeid, tõlgitakse tekst tavaliselt lause haaval. Keelemudelid on tavaliselt ligikaudsed n-grammide kattuvuse mudelid ja sarnased lähenemisviise kasutatakse tõlkemudelites. Keerukust lisavad erineva pikkusega laused ja sõnade järjekord eri keeltes.

Statistilised masintõlke mudelid olid esialgu sõnapõhised (IBM-i peidetud Markovi mudelid 1–5 Stephan Vogelilt^[3] ja 6 mudelit Franz-Joseph Ochilt^[4]), kuid märkimisväärseid edusamme saavutati just fraasipõhiste mudelite kasutusele võtmisega.^[5] Hiljutised tööd on kaasanud süntaks- või kvaasi-süntatkilisi struktuure.^[6]

Eelised võrreldes muude masintõlkemeetoditega[muuda | muuda lähteteksti]

Kõige tihedamini viidatud statistilise masintõlke meetodi eelised võrreldes reeglipõhise lähenemisega on järgmised:

Efektiivsem inim- ja andmeressursside kasutus
- On olemas suurtes kogustes paralleelkorpusi masinloetavas formaadis ja veel rohkem ühekeelseid andmeid.
- Üldiselt ei ole SMT süsteemid ehitatud ühe konkreetse keelepaari tarvis.
- Reeglipõhised tõlkesüsteemid vajavad lingvistiliste reeglite arendamist, mis võib osutuda kulukaks ja mis tihti ei üldistu hästi teistele keeltele.
Korpuste suurenemisel põhimõtteliselt iseparenevad^[7].
Soravamad tõlked tänu keelemudelile.^[8]

Puudused võrreldes muude masintõlkemeetoditega[muuda | muuda lähteteksti]

Korpuse loomine võib osutuda kulukaks.
Teatavad vead on raskesti ennustatavad ja raskesti parandatavad.
Tõlke pindmise soravuse all võib peituda viga tähenduse tõlkes.
Valdkondlik piiratus: kui korpus sisaldab tekste paljudest erineva keelekasutusega valdkondadest, muutuvad tulemused ebaühtlaseks^[9].
SMT töötab tavaliselt halvemini keelepaaridega, millel on oluliselt erinev lausestus.
Lääne-Euroopa keelte vaheliste tõlgete tulemused ei esinda teisi keelepaare, millel on väiksem korpus ja mille vahel on suuremad grammatilised erinevused.^[8]

Sõnapõhine tõlge[muuda | muuda lähteteksti]

Sõnapõhises tõlkes on fundamentaalne tõlkeühik sõna. Tüüpiliselt on sõnade arv liitsõnade, morfoloogia ja väljendite tõttu lähte- ja sihtkeeles erinev. Vahekorda lähtesõnade ja sihtsõnade arvu vahel nimetatakse viljakuseks, mis väljendab mitu sõna iga lähtesõna sihtkeeles esindab. Vastavalt informatsiooniteooriale on tarvis eeldada, et igale sõnale on täpselt üks õige tõlge. Praktikas ei ole see tõsi. Näiteks, eestikeelse sõna nurk võib hispaania keelde tõlkida kui rincón või kui esquina, sõltuvalt kas tegemist on sise- või välisnurgaga.

Lihtne sõnapõhine tõlkesüsteem ei suuda tõlkida erineva viljakusega keelte vahel. Seda saab suhteliselt lihtsalt lahendada võimaldades süsteemil seada üks sõna vastavusse mitme sõnaga, kuid mitte vastupidi. Näiteks, kui tõlgime inglise keelest prantsuse keelde, siis iga sõna inglise keeles võib vastavusse seada suvalise arvu prantsuskeelsete sõnadega – või mõnikord mitte ühegagi. Aga ei ole võimalik rühmitada kahte ingliskeelset sõna, et seada vastavusse ühe prantsuskeelse sõnaga.

Näide sõnapõhisest SMT-süsteemist on vabalt kättesaadav GIZA++ pakett (GPLed), mis sisaldab treeninguprogrammi IBM mudelite, peidetud Markovi mudeli ja mudel 6 treenimiseks.^[4]

Sõnapõhised SMT-süsteemid ei ole 2016. aasta seisuga laialt kasutusel. Fraasipõhised süsteemid on tavapärasemad. Enamik fraasipõhiseid süsteeme kasutab GIZA++´i paralleelkorpusest väiksemate paralleelsete tekstiosade kättesaamiseks.^[10] Ühilduvate sõnade leidmine paralleeltekstis on probleemiks. Tänu GIZA++ laiale levikule on 2016. aasta seisuga saadaval selle mitu implementatsiooni.^[11]

Fraasipõhine tõlge[muuda | muuda lähteteksti]

Fraasipõhises tõlkes on eesmärk vähendada sõnapõhise tõlke piiranguid, lubades tõlkida mitu sõna korraga. Neid mitut sõna kutsutakse plokiks või fraasiks, kuid tavaliselt ei ole tegemist lingvistilise fraasiga. On näidatud, et fraaside piiramine lingvistilisteks fraasideks halvendab tõlkekvaliteeti.^[12]

Märkused ja viited[muuda | muuda lähteteksti]

↑ Philipp Koehn (2009).
↑ W. Weaver (1955).
↑ S. Vogel, H. Ney and C. Tillmann. 1996.
↑ ^4,0 ^4,1 F. Och and H. Ney. (2003).
↑ P. Koehn, F.J. Och, and D. Marcu (2003).
↑ D. Chiang (2005).
↑ Raido Vahtra (4. jaanuar 2019). "Masintõlge: minevik, olevik, tulevik". Vaadatud 6. septembril 2019.
↑ ^8,0 ^8,1 Introduction to Statistical Machine Translation (2005) Callison-Burch, Koehn. Loetud: https://web.archive.org/web/20160206155454/http://homepages.inf.ed.ac.uk/pkoehn/publications/esslli-slides-day1.pdf
↑ Raido Vahtra (4. jaanuar 2019). "Masintõlge: minevik, olevik, tulevik". Vaadatud 6. septembril 2019.
↑ P. Koehn, H. Hoang, A. Birch, C. Callison-Burch, M. Federico, N. Bertoldi, B. Cowan, W. Shen, C. Moran, R. Zens, C. Dyer, O. Bojar, A. Constantin, E. Herbst. 2007.
↑ Q. Gao, S. Vogel, "Parallel Implementations of Word Alignment Tool", Software Engineering, Testing, and Quality Assurance for Natural Language Processing, pp. 49-57, June, 2008
↑ Philipp Koehn, Franz Josef Och, Daniel Marcu: Statistical Phrase-Based Translation (2003)

[1] Philipp Koehn (2009).

[2] W. Weaver (1955).

[3] S. Vogel, H. Ney and C. Tillmann. 1996.

[H._Ney._2003-4] 4,0 ^4,1 F. Och and H. Ney. (2003).

[5] P. Koehn, F.J. Och, and D. Marcu (2003).

[Chiang2005-6] D. Chiang (2005).

[7] Raido Vahtra (4. jaanuar 2019). "Masintõlge: minevik, olevik, tulevik". Vaadatud 6. septembril 2019.

[:0-8] 8,0 ^8,1 Introduction to Statistical Machine Translation (2005) Callison-Burch, Koehn. Loetud: https://web.archive.org/web/20160206155454/http://homepages.inf.ed.ac.uk/pkoehn/publications/esslli-slides-day1.pdf

[9] Raido Vahtra (4. jaanuar 2019). "Masintõlge: minevik, olevik, tulevik". Vaadatud 6. septembril 2019.

[10] P. Koehn, H. Hoang, A. Birch, C. Callison-Burch, M. Federico, N. Bertoldi, B. Cowan, W. Shen, C. Moran, R. Zens, C. Dyer, O. Bojar, A. Constantin, E. Herbst. 2007.

[11] Q. Gao, S. Vogel, "Parallel Implementations of Word Alignment Tool", Software Engineering, Testing, and Quality Assurance for Natural Language Processing, pp. 49-57, June, 2008

[12] Philipp Koehn, Franz Josef Och, Daniel Marcu: Statistical Phrase-Based Translation (2003)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]