Mine sisu juurde

Keelemudel

Allikas: Vikipeedia

Keelemudel on arvutuslik mudel, mis ennustab järgnevusi loomulikus keeles.[1] See on matemaatiline mudel, mis modelleerib jada elementide (näiteks loomulikus keeles tekstide puhul tähtede või sõnade) järgnevust, enamasti juhusliku protsessi kujul.

Keelemudelid etendavat keskset osa tänapäeva arvutilingvistikas ja on üks otsustav komponent selle praktilistes rakendustes, näiteks tekstigenereerimises masintõlke jaoks ja kõnetuvastuses.[2][3] Tuntuks said need generatiivsete tehisarumudelite tulekuga. Näiteks on keelemudel ka juturoboti ChatGPT aluseks olev generatiivne eeltreenitud transformer ehk treenitud generatiivtransformer (GPT). Vaata ka suur keelemudel.

Matemaatiline kirjeldus

[muuda | muuda lähteteksti]

Keelemudelid modelleerivad jadasid (näiteks lauseid) elementide (näiteks tähtede või sõnade) järgnevustena. Stohhastilistes keelemudelites on need elemendid juhuslikud suurused ja moodustavad diskreetse ajaga juhusliku protsessi. Selleks et sama mudelit saaks rakendada erineva pikkusega jadade korral, märgitakse nende algus ja lõpp tavaliselt täiendavate juhuslike suurustega ja , millel on eriline väärtus (võimalik tähistus: ). Konkreetse jada tõenäosust saab siis formuleerida konjunktsiooni

tõenäosusena.

Selle tõenäosuse sagedane lühinotatsioon[4] on

.

Täieliku tõenäosuse seaduse järgi saab selle tõenäosuse kirjutada ka nii:

Ehk lühidalt:

.

Sõnadega: jada tõenäosus on korrutis järjekordsete elementide tõenäosustest eelnevate elementide korral.

Et mudelis kasutatakse korral alati väärtust ( peaaegu kindel), siis. Selle teguri võib seetõttu välja jätta.

Erinevad stohhastilised keelemudelid erinevad selle poolest, kuidas nad modelleerivad tinglikke tõenäosusi . Juhtumit ei pruugita käsitleda eraldi. Sel juhul käsitletakse seda nii, nagu oleks ka jada element (näiteks sõna).

  1. Idan A. Blank. What are large language models supposed to modelTrends in Cognitive Sciences, 2023, 27 (11): 987–989. "Suured keelemudelid on mõeldud modelleerima, kuidas lausungid käituvad."
  2. Yoav Goldberg. 'Neural Network Methods for Natural Language Processing, Morgan & Claypool Publishers 2017, ISBN 978-1-62705-295-5, ptk 9, Language Modeling, lk 105
  3. Stanley Chen, Joshua Goodman. An Empirical Study of Smoothing Techniques for Language Modeling. – Aravind Joshi, Martha Palmer (toim). Proceedings of the 34th Annual Meeting of the ACL. Juni 1996. [https://arxiv.org/pdf/cmp-lg/9606011.pdf Veebis.
  4. Nii kasutab ka Goldberg (2017), kuid mõnikord ilma algus- ja lõpumarkerita; algusmarker on seal asemel ja lõpumarker ; Collinsil (2013) on lõpumarker STOP