Kõnesüntees

Allikas: Vikipeedia
Jump to navigation Jump to search

Kõnesüntees (inglise keeles speech synthesis) on inimkõne kunstlik produtseerimine kas inimhääle omaduste sünteesimise abil või salvestatud inimkõne üksuste (foneemid, difoonid, sõnad vms) ühendamise teel.

Kõnesünteesiga tegelevat arvutiprogrammi nimetatakse kõnesüntesaatoriks. Seda kõneanalüsaatoriga kombineerides on võimalik luua keskkond, kus inimene saab arvuti või mõne arvutit sisaldava seadmega suhelda ainult kõne vahendusel.

Ajalugu[muuda | muuda lähteteksti]

1779. aastal ehitas Peterburis elanud Taani teadlane Christian Gottlieb Kratzenstein inimese kõnetrakti mudeleid, mis suutsid tekitada viit vokaali. Nende eeskujul lõi 1791. aastal Ungari teadlane Wolfgang von Kempelen akustilis-mehaanilise kõnemasina, mis suutis tänu keele ja huulte mudeli lisamisele tekitada peale vokaalide ka konsonante. Tegemist oli mehaaniliste aparaatidega, mis jäljendasid inimese kõnetrakti tööd rääkimise ajal. Analoogseid mehaanilisi ja poolelektroonilisi süsteeme ehitati ja arendati ilma suurema eduta 1960. aastateni. [1]

1920. aastatel tehti esimesi katsetusi kõne elektroonilise sünteesiga. Esimeste tulemusteni jõuti kolmekümnendate aastate keskel, mil Belli laborites ehitati VOCODER ja selle eeskujul Homer Dudley loodud VODER 1939. aastal. Viimane koosnes heli- ja müraallikast, põhitooni kõrgust juhtivast pedaalist ja sõrmedega juhitavatest filtritest. Esimese formantsünteesil põhineva süntesaatori PAT ehitas Walter Lawrence 1953. aastal.

Esimene artikulatoorne kõnesüntesaator loodi 1958. aastal Massachusettsis MITi laborites. Üks esimesi teksti kõneks teisendatavaid (Text-To-Speech, TTS) kõnesüntesaatoreid ehitati Jaapanis 1968. aastal. 1980. aastatel oli turul juba hulk kommertssüsteeme.

1990. alustati kompilatiivse kõnesünteesiga, mille puhul võeti aluseks kõnekorpustes olevad üksused ja ühendati need omavahel seotud kõneks. Esimeseks tuntumaks süsteemiks sai MBROLA.

Eestis[muuda | muuda lähteteksti]

Sünteesimeetodid[muuda | muuda lähteteksti]

Kõnesünteesi puhul kasutatakse erinevaid sünteesimeetodeid [2]:

  • Artikulatoorne süntees – mudel, mille puhul imiteeritakse inimese kõneorganite tegevust.
  • Formantsüntees – elektrooniline mudel, kus heliallikas imiteerib häälekurdude võnkumist ja filter kõnetrakti resonantssagedusi.
  • Kompilatiivne e. korpuspõhine süntees – lahendus, mis põhineb kõnekorpuses olevate salvestatud naturaalse kõne kõnelõikude (foneemide, difoonide, trifoonide, silpide, morfeemide, sõnade, lausete jne) omavahelisel ühendamisel.
    • Difoonsüntees (sünteesi aluseks on kahest naaberfoneemist koosnevad lõigud)
    • Muutuva pikkusega segmentide valimine (sünteesi aluseks on erineva pikkusega kõnelõigud)

Rakendused[muuda | muuda lähteteksti]

  • Nägemis- ja kõnepuuetega inimeste abivahendid
  • Keeleõpe
  • Infosüsteemid
  • Dialoogsüsteemid
  • Subtiitrite helindamine
  • Emotsionaalse kõne süntees
  • Uudistelugeja

Vaata ka[muuda | muuda lähteteksti]

Viited[muuda | muuda lähteteksti]

  1. Lemmetty, Sami 1999: Review of Speech Synthesis Technology. Master's thesis. Helsinki University of Technology.
  2. Meister, Einar.; Alumäe, Tanel 2010: Kuidas arvuti kuulab ja kõneleb. Horisont, 5.. Master's thesis. Helsinki University of Technology.

Välislingid[muuda | muuda lähteteksti]