Kõnetuvastus

Allikas: Vikipeedia

Kõnetuvastus (inglise speech recognition, lühend SR) on inimkõne sisu automaatne äratundmine arvutustehnika vahenditega[1].

Arvutite kõnetuvastus jõudis praktilise tasemeni 1990. aastatel, kui United Airlines vahetas oma lennuinfo klaviatuurisüsteemi süsteemiga, mis kasutab lennunumbrite ja linnanimede kõnetuvastust.

Kuigi arvuteid on võimalik juhtida häälkäsklustega, on enamik kasutajaid jäänud siiski klaviatuuri ja hiire juurde, kuna need on siiani mugavamad. Tänapäeval on kõnetuvastus juba levinud nutitelefonidele. Suurem osa kõnetuvastustehnoloogiat jaguneb kahte kategooriasse: kõnelejast sõltuvad ning kõnelejast sõltumatud süsteemid.

Ajalugu Eestis[muuda | redigeeri lähteteksti]

Küberneetika Instituudi foneetika ja kõnetehnoloogia laboratooriumis tehti esimesed eksperimendid eestikeelse kõnetuvastusega juba kaheksakümnendate lõpus. Aktiivsemalt hakati tuvastusega tegelema 2000-ndate keskel. Suure tõuke andis sellele kahe mahuka eesti keelse kõne andmebaasi (BABEL ja Eesti SpeechDat) loomine, mis võimaldasid treenida juba üsna hästi toimivaid akustilisi mudeleid. Kõneandmebaaside loomine ongi labori üks tähtsamaid tegevusi, mis toetab teisi uurimissuundi. Põhiliseks kõnetuvastusega seotud uurimisobjektiks on olnud keelemudel.

Standardse kõnetuvastuse mudel

Jõudlus[muuda | redigeeri lähteteksti]

Kõnetuvastussüsteemide jõudlust mõõdetakse täpsuse ja kiiruse põhjal. Täpsust määratletakse tavaliselt Word Error Rate (WER) ehk Sõna Vea Tiheduse alusel, samas kiirust mõõdetakse päris ajas. Teised mõõdupulgad võivad olla Single Word Error Rate (SWER) ehk Üksiku Sõna Vea Tihedus ja Command Success Rate (CSR) ehk Käsu Edu Tihedus. Kõnetuvastus on riistvara poolest siiski väga keeruline probleem. Inimeste hääled erinevad nii aktsendi, häälduse, liigenduse, sügavuse, nasaalsuse, helikõrguse, -tugevuse ja kiiruse poolest. Häirivad on ka taustahelid ja kajad. Keele täpsuse äratundmine sõltub mitmest faktorist:

  • Sõnavara suurus ja keerukus
  • Kõneleja sõltuvus või sõltumatus
  • Isoleeritud, seisatud või ladus kõne
  • Ülesande ja keele piirangud
  • Lugemine või spontaane kõne
  • Ebasoodsad tingimused

Vea parandus[muuda | redigeeri lähteteksti]

Kõne äratundmise täpsus sõltub mitmest faktorist[2].

  • Vea tihedus on võrdelises seoses sõnavara suurusega. Näiteks: Kümme esimest numbrit "null" kuni "üheksa" tuntakse ära peaaegu täiuslikult, aga sõnavarad suurustes 200, 5000 või 100000 võivad sisalda veatihedust vastavalt ligi 3%, 7% või 45%.
  • Sõnavara on raske ära tunda, kui see sisaldab keerulisi sõnu. Näiteks: Inglise tähestiku 26 tähte on raske eristada, kuna nende hääldus erineb sõnast sõnasse (kõige kurikuulsam E-komplekt: "B, C, D, E, G, P, T, V, Z"); ligi 8%-list veatihedust peetakse sellise sõnavara puhul heaks tasemeks.[tsitaat puudulik]
  • Kõneleja sõltuvus vs sõltumatus. Kõnelejast sõltuv süsteem on mõeldud kasutuseks ühele kasutajale. Kõnelejast sõltumatu süsteem on mõeldud kõigile, ent on keerulisem.
  • Isoleeritud, seisatud või ladus kõne. Isoleeritud kõne puhul kasutatakse vaid üksikuid sõnu, seega on kergem kõnet ära tunda. Seisatud kõnes kasutatakse terveid lauseid, mis on eraldatud vaikusega, seega on sarnaselt isoleeritud kõnele kergem kõnet ära tunda. Isoleeritud ja seisatud kõnest keerulisem on ära tunda ladusat kõnet, sest kasutatakse loomulikult öeldud lauseid.
  • Ülesande ja keele piirangud. Näiteks võib infopäring loobuda hüpoteesist " Õun on punane." Samuti võivad piirangud olla semantilised ning lükata tagasi fraasi "Õun on vihane," või süntaktilised ning lükata tagasi "Vihane õun on." Piiranguid võib esitada ka grammatika.
  • Loetud vs spontaanne kõne. Kui inimene loeb, siis on see tavaliselt seotud eelneva kontekstiga, aga spontaanse kõne puhul on kõnet ära tunda, sest see on varjutatud kõnekeelsusest tulevatest vigadest (nagu "ee" ja "mm", vale algused, poolikud laused, kogelused, köhimine ja naer) ning piiratud sõnavarast.
  • Ebasoodsad tingimused. Kõnetuvastuse ülesanne on mitmetasemelise mustri äratundmine, mida võivad mõjutada keskkonna helid (autod, tehased) ning akustilised häired (kajad, ruumi geomeetria).
  • Akustilised signaalid on struktureeritud hierarhiariliselt. Näiteks: foneemid, sõnad, fraasid ja laused.
  • Igal hierarhia tasemel on võimalik teha vigu. Näiteks tuntud sõna hääldus või süntaks võib kompenseerida madalamatel tasemetel tehtud vigu. Kõnetuvastusel kasutatakse seda piirangute hierarhiat ära. Madalamatel tasemetel tehtud otsused kombineeritakse vaid tõenäosuslikult ja täpsustavaid otsuseid tehakse vaid kõrgemail tasemetel.

Masinlik kõnetuvastus on mitmest faasist koosnev protsess. Arvutuslikult on ülesanne helimustri äratundmises või klassifitseerimises kategooriasse, mis esindavad tähendust inimesele. Keerulise helisignaali lõhkumisel väiksemateks helisignaalideks luuakse erinevad tasemed. Madalaimal tasemel, mil heli on kõige fundamentaalsem, suudab arvuti lihtsaid tõenäolisusreegleid kasutades kontrollida, mida heli esindab. Kõrgemal tasemel kombineeritud helide puhul määrab uus reeglite kogu, mida uus keeruline heli võiks esindada. Kõige kõrgema taseme reeglite kogu määratleb väljendite tähenduse. Selleks, et laiendada meie kõneteadust, tuleks arvesse võtta neuronvõrgud.

Dikteerimisvigade parandamine[muuda | redigeeri lähteteksti]

Dikteerimise käigus tehtud vigade parandamiseks on mitmeid viise. Viimasena öeldud fraasi parandamiseks võib kasutaja öelda "Paranda see". Üksiku sõna parandamiseks võib öelda parandatava sõna järel "paranda". Kui sõna ilmneb mitu korda, tõstetakse kõik esinemisjuhud esile ning kasutaja võib valida, millist soovite parandada. Samuti võib funktsiooni "Kõnesõnastik" kasutades lisada korduvalt valesti kuuldud või tuvastamatuid sõnu.

Kõnetuvastus ja Windows OS[muuda | redigeeri lähteteksti]

Hetkel ei vaja lisatarkvara kõnetuvastuse toetamiseks Windows Vista, 7 ja 8. Windows XP vajab kasutajaliidese pakkumiseks Microsoft Plus'i, Microsoft Office XP'd või Microsoft .NET Speech SDK'd.

Vaata ka[muuda | redigeeri lähteteksti]

Viited[muuda | redigeeri lähteteksti]

  1. U. Mereste, 2003. Majandusleksikon. Eesti Entsüklopeediakirjastus. Köide I (A–M).
  2. Learn Artificial Neural Networks: "Speech Recognition"23.12.12.