Vabljeni na pogovor s stroji!

Foto: plantronicsgermany - Flickr

Foto: plantronicsgermany - Flickr

Ljudje s stroji komuniciramo že vse od Edisonovega fonografa. V 80-ih letih minulega stoletja se je začela razvijati sinteza govora v komercialne namene, danes pa je tehnologija umetnega govora tako rekoč nepogrešljivi člen vsakega večjega uporabniškega sistema.

A nova dognanja premikajo meje. Kot je leta 2000 napovedal nekdanji izvršni direktor Xeroxa Paul Ricci, bi lahko pametni govorni sistemi zelo kmalu izpodrinili nekatere ustaljene tehnologije, kot so na primer računalniška miška ali računalniške ikone.

Do tega, da bi lahko stroji s pomočjo sistemov za razpoznavanje in sintezo govora z nami dobro komunicirali, pa je dolga pot, povezana z zapleteno sintakso jezika in razvojem umetne inteligence. Računalniki se namreč niti dandanes ne morejo pohvaliti z razumevanjem pomena jezika, ki bi bil primerljiv z ravnjo 5-letnega otroka, prej lahko govorimo o površinskem razumevanju.

France Mihelič (Foto: luks.fe.uni-lj.si)

France Mihelič (Foto: luks.fe.uni-lj.si)

Raziskave na področju umetne inteligence je v zdajšnji hitrejši razvoj pognala tudi vse večja potreba po prijaznejših uporabniških vmesnikih, pri čemer pomemben del igra tudi govor. A pri tem morajo preseči razumevanje črk, besed, stavkov in ločil ter ugotoviti, kako doseči sistem znanja pri komuniciranju strojev, s katerim bodo ti sposobni zaobseči tudi kontekst komuniciranja.

Zamisel o razpoznavanju govora in pretvarjanju tega iz enega jezika v drugega je stara toliko, kot so stari digitalni računalniki, ko so jih prenehali uporabljati za vojaške namene,” pojasnjuje profesor France Mihelič iz laboratorija za umetno zaznavanje, sisteme in kibernetiko Fakultete za elektrotehniko v Ljubljani, raziskave v slovenskem jeziku pa so se po njegovih besedah začele v 80. letih minulega stoletja.

Simon Dobrišek (Foto: tsdconference.org)

Simon Dobrišek (Foto: tsdconference.org)

A kako se sistem sploh uči? Po besedah docenta Simona Dobriška iz omenjenega laboratorija gre za učenje po načelih statistike. “Vse, kar potrebujemo, je prepis govora in posnetke. Računalnik nato s statističnimi analizami oceni, kakšni toni in frekvence se pojavljajo v signalu za določene glasove, kakšne so kombinacije glasov, ki tvorijo besede … In večje, kot so tovrstne zbirke, večje kot je računalnikovo poznavanje govora v analizi signala, bolje razpoznava že njemu znane frekvenčne karakteristike in to pretvarja v določene simbole oziroma govor.”

Angleščina je med jeziki v izraziti prednosti, saj je jezik, kjer sta razpoznavanje in sinteza oziroma umetno tvorjenje govora najbolje realizirana. To gre pripisati zadostni količini materialnih sredstev, številu raziskovalcev in finančnemu interesu. Poleg tega je bilo angleščino laže ukrotiti, kot pa na primer slovenščino, ki je za stroko na tem področju precej trd oreh.

Po besedah profesorja Miheliča predstavljajo v slovenščini težavo številne pregibne oblike, torej skloni, sklanjatve, vse skupaj zaplete tudi dvojina. “S stališča obdelave to pomeni veliko več primerov, ki jih mora računalnik prepoznati, pa tudi težavo pri opisovanju takega jezika, saj je v njem skoraj več izjem kot pravil.”

Toda eno je jezikovno modeliranje sistemov, da torej osvojijo zakonitosti jezika kot takega, drugo pa akustična plat, ki se je sistem mora priučiti, da torej zveni kot pravi govorec. Po Miheličevih besedah so tehnologije na tem področju precej bolj univerzalne.

Postopki za akustično modeliranje so uporabni za večino jezikov, enako za slovenščino kot za angleščino. V laboratoriju za umetno zaznavanje, sisteme in kibernetiko v Ljubljani skušajo med drugim računalniški sistem priučiti jezikovnega barvanja, posebno poglavje predstavlja tudi intonacija.

Ob sintezi govora pa omenimo tudi zmožnost strojev, da razpoznavajo govor. “To je nekako tako, kot da nekdo, ki ne zna popolnoma nič kitajsko, sliši govor Kitajca in skuša to nato ponoviti, ne da bi kitajščino sploh razumel,” pojasnjuje Simon Dobrišek.

Po njegovih besedah govor uporabljamo za to, da se sporazumevamo, področji sporazumevanja in razpoznavanja sta zato zelo povezani. V nekaterih tujih jezikih so tako že izoblikovali zelo dovršene programe, ki so sposobni suvereno zapisovati narek. In kakšna je raba razpoznavalnikov v praksi? “Ko neko podjetje ustvari sistem za odnose s stranko, lahko uporabi internet, zaslonsko komunikacijo oziroma tehnologijo pametnih telefonov, drugo možnost pa predstavlja komunikacija z umetnim govorom. Za zdaj so po večini najbolj v uporabi odzivniki Pritisnite 1, če želite storitev A, pritisnite 2, če želite storitev B in tako dalje,” pojasnjuje.

Na Fakulteti za elektrotehniko prav na tem področju izpopolnjujejo poseben program za razpoznavanje govora pri komunikaciji za rezervacijo letalskih kart. Z njegovo pomočjo bi lahko računalnik na drugi strani razpoznal naš govor in nas na podlagi tega preusmeril.

Sodobni razpoznavalniki govora pa naj bi imeli tudi nadzorno funkcijo. Tako se na fakulteti raziskovalno posvečajo tudi razpoznavanju agresivnosti v govoru. Na tak način bi lahko z računalniško analizo zvoka zaznali, ali nek človek z načinom svojega govora izraža stisko. Po njegovih besedah gre za tiho proženje alarma: “Zamislimo si zlatarno, v katero vlomi vlomilec. Prodajalec v njej bi lahko skozi dialog s storilcem nadzornemu sistemu sporočil, da potrebuje pomoč.

Prav avdio nadzor človeka pa je lahko – svari stroka – tudi vdor v njegov intimni prostor. Tu pa se poraja novo vprašanje varnosti naših osebnih podatkov. A to je tema za kdaj drugič.