A Microsoft egy kínai konferencián olyan tolmácsprogramot mutatott be, amely szinte azonnal és eddig elérhetetlennek gondolt pontossággal ismeri föl, fordítja mandarinra, majd mondja ki az angol nyelvű beszédet. A technológiát áttörésként értékelik mindenhol, de vélhetően nem mindenki örül. Mi lesz így a gépírókkal és a tolmácsokkal?

Nem az erőpajzs, a hipertérugrás vagy a transzporter volt a Star Trek című tudományos-fantasztikus sorozat leghihetetlenebb kliséje. Hanem olyasmi, amit a legtöbb rajongó magától értetődőnek gondolt. Amikor Kirk kapitány és csapata lesugárzott egy idegen bolygóra, azonnal beszélni tudtak az ott élő, addig soha nem látott lényekkel, mert azok tökéletes angolsággal szólaltak meg. Vélhetően a film készítői is érezhették, hogy ez azért sántít, így kitalálták, hogy minden űrhajósnál van egy univerzális fordítónak nevezett készülék. Az efféle tolmácsgép lehetőségét a való életben kevesen tartották elképzelhetőnek. Eddig.
Rick Rashid, a Microsoft vezető kutatója október 25-én kiállt egy kínai konferencia kínai hallgatósága elé, és azt mondta: „Angolul fogok beszélni, és önök kínaiul fogják hallani a szavaimat, méghozzá az én hangomon.” És ez történt. Rashid angolul adott elő, a feje fölötti óriáskivetítőn a beszédfelismerő számítógép automatikusan feliratozta a szavait, mint írták, 97-98 százalékos pontossággal, tudósít a New Scientist. Ezután a szöveget a Bing nevű keresőprogram fordítóalgoritmusa lefordította a kínai nyelv mandarin változatára, és az eredményt kiírta egy másik kivetítőre. A végső lépésként ezt a kínai nyelvű szöveget ki is mondta a komputer, amely Rashid hangján szólalt meg. Az egész folyamat alig néhány másodpercet vett igénybe, az előadó mondatonként szünetet tartott, ekkor mondta el „ugyanő” kínaiul a szöveget. Pontosan úgy, mintha egy mellette álló tolmács fordítana. A közönség pedig jól nevelten, a Microsoft marketingesei által remélt ovációban tört ki minden egyes mondat után. Ezek után furcsa, hogy több mint egy hétnek kellett eltelnie a produkció után, míg a hír kijutott Kínából.
Az efféle technológia ötlete korántsem új, és számos beszédfelismerő program volt már eddig is a piacon. Az első próbálkozások hatvan évvel ezelőtt kezdődtek. A felvett hang hullámstruktúráját próbálták megfeleltetni a korábban rögzített szavak mintázatához, de csakhamar kiderült, hogy az emberek beszéde között akkora a különbség, hogy ez a módszer használhatatlan. A hetvenes években aztán olyan statisztikai módszereket kezdtek alkalmazni, amelyek már figyelembe vették az emberek beszédmódjai közötti különbségeket. A hibaarány azonban még mindig húsz-harminc százalékos maradt, ami a gyakorlatban használhatatlanná tette a technológiát. A fejlesztés persze nem állt le, így mára a Microsofton kívül is szinte minden magára valamit is adó informatikai világcég fejleszt beszédfelismerő algoritmusokat. Vannak olyan cégek, amelyek erre specializálódtak, és a magyar piacon is jelen vannak.
– A mi szoftverünk a felhasználó úgynevezett hangspecifikumait szerveren tárolja. Első lépésként kétpercnyi szöveget kell mindenkinek felolvasnia, a rendszer pedig megtanulja fölismerni a kimondott szavak fonémáit, majd ezek alapján megkeresi a szótárban a leginkább odaillő szót – magyarázza Benes Edvárd, a hangfelismerő programot fejlesztő, működtető Belux Csoport Kft. ügyvezetője. – A program a használattal egyre pontosabb lesz, képes tanulni, mert amikor diktálnak neki, rögzíti a felhasználó hangját, és ezzel együtt elmenti a felismert szöveg javításait is. A rendszer százszavanként hibázik négyet-ötöt, bár ezek a hibák általában csak részlegesek, tehát például rossz ragot illeszt a helyes szótő után.
Ez meglehetősen egyszerűen hangzik, pedig korántsem az. Valójában minden egyes lépése bonyolult matematikai műveleteken alapul, amelyek olyan erős számítógépeket igényelnek, amelyek csak nemrégiben váltak hozzáférhetővé a polgári felhasználók számára.
– A rögzített beszédet az algoritmus igyekszik minél rövidebb fonémaelemekre szabdalni. Ez elengedhetetlen ahhoz, hogy a szöveggé alakítás sikeres legyen. Ebből a szempontból a magyar nyelvvel, amelynek írásmódja egészen jól követi a kimondott hangok sorrendjét, könnyebb dolgozni, mint például az angollal, ahol a kiejtett hangok és a leírt betűk között bonyolultabb az összefüggés – nyilatkozta lapunknak Kocsor András mesterségesintelligencia-kutató, akit 2005-ben Gábor Dénes-díjjal jutalmaztak a beszédfelismerés területén végzett kutatómunkájáért. – A felszabdalt beszédhang gyakorlatilag egy közbülső nyelvként képzelhető el, ezt fordítja le a számítógép az írott alakra. Itt válik problémássá a magyar nyelv kezelése. A magyar ugyanis, az angollal ellentétben, ahol általában tőszavakkal találkozunk, ragozó nyelv, így gyakorlatilag végtelen számú szóalak alkotható. Az algoritmusnak ezért nyelvtani elemzést kell végeznie, és fel kell ismernie a hasonulásokat is.
A beszédfelismerés legnagyobb átka a felhasználók kérlelhetetlen igénye a tökéletességre. Ami kicsit rossz, az számukra már nem jó, hiszen a túl gyakorinak ítélt hiba felidegesíti az embert, és inkább sutba dobja az egészet.
– Az emberek, amikor beszédfelismerőkkel találkoznak, igen türelmetlenek lehetnek. Csak a valós idejű átírás a megfelelő számukra, nem vár senki órákig a diktálás után, hogy leírva lássa a szöveget. A ma is használt felismerőalgoritmusok előképei már a hetvenes években is léteztek, de az időkorlát és a számítási kapacitás végessége miatt akkor még csak ötven–hetvenöt százalékos pontosságot tudtak elérni – mondja Kocsor András. – A felhasználók még kilencven–kilencvenöt százalékban pontos szöveget olvasva is hajlamosak azt rossznak értékelni. A jelenben zajló beszédfelismerési forradalom a számítógépek erősödése mellett annak köszönhető, hogy a beszédminták soha nem látott mennyiségben gyűlnek. Ma már a legtöbb okostelefon képes beszédfelismerésre, és a kimondott szavak lehetséges megfelelőit felajánlja az embernek. Kiválasztja a megfelelőt, ezzel észrevétlenül tanítja a világ összes hasonló rendszerű számítógépét, hiszen a javítás visszajut a központba.
A jóslatok szerint, éppen a robbanásszerűen gyarapodó beszédkönyvtárak miatt, a következő néhány évben annyit fog javulni a beszédfelismerés pontossága, mint amennyit az elmúlt harminc évben. Hamarosan tehát eljöhet az az idő, amikor a tollba mondó program a mindennapi élet része lesz. Szükség lesz akkor gépírókra és tolmácsokra?
– Az efféle programok nem jelentik a gépírói szakma végét. Inkább a hatékonyságot növelik, mivel egy gépíró átlagosan 172 sort képes leírni óránként, viszont 550 sort tud javítani. Tehát ha megkapja a komputer által felismert nyers szöveget, azzal harmadannyi idő alatt végez, mintha diktálnának neki – mondja Benes Edvárd. – Magyarországon háromszázötven-négyszáz felhasználója van a programunknak, akiknek be kell jelentkezniük a rendszerbe interneten keresztül, az adatok tárolása és a számítási műveletek ugyanis egy távoli számítógépen történnek.
A Microsoft beszédfelismerő programja az igen rejtélyesen hangzó mesterséges neuronhálózatok (ezek olyan számítástechnikai módszerek, amelyek kissé modellezik az emberi agy működését – már amennyit értünk az agy működéséből) bevetésével a pontosságot még följebb tornászták, bár az még Rick Rashid bevallása szerint is távol van a tökéletestől. Amitől a kínaiak igazán elámultak, az mégsem ez, hanem a program beszédgeneráló része. Ezt a technológiát már korábban bemutatták, bár akkor még csak írott szöveget tudtak felolvasni más nyelven, a felhasználó hangján. Ez nem egyik percről a másikra történik. A programot előzőleg egy órán keresztül kell „tréningelni”, eközben hosszú szöveget kell felolvasnunk neki, olvasható a MIT Technology Review-ban. Ezalatt a szoftver megtanulja a beszédünk egyedi finomságait, amit aztán az általánosan generált beszédhangra illeszt, ettől fog az úgy hangzani, mintha mi beszélnénk. Nemcsak kínai nyelven, hanem huszonöt másikon is működik ugyanez.
Kérdés, hogy mire jó, ha ez a beszédhang az illető hangjára hasonlít. Erről a Microsoft szakemberei sem tudnak sokat mondani, ehelyett olyan, kissé közhelyszerű frázisokat használnak, miszerint a kimondott szavak önmagukban nem adják vissza az illető mondanivalóját, ahhoz kell a hangszíne is. Vagy hogy ettől a program működtetése közben otthonosabban, természetesebben fogják érezni magukat a felhasználók. A Microsoft vélhetően már azzal is tökéletesen elégedett, hogy a világ most néhány napig nem a Google vagy az Apple világraszóló újításait sztárolja, hanem az ő találmányuk uralja a kütyürajongók képzeletét.

2012. november 24.

Reklámok

Vélemény, hozzászólás?

Adatok megadása vagy bejelentkezés valamelyik ikonnal:

WordPress.com Logo

Hozzászólhat a WordPress.com felhasználói fiók használatával. Kilépés /  Módosítás )

Google+ kép

Hozzászólhat a Google+ felhasználói fiók használatával. Kilépés /  Módosítás )

Twitter kép

Hozzászólhat a Twitter felhasználói fiók használatával. Kilépés /  Módosítás )

Facebook kép

Hozzászólhat a Facebook felhasználói fiók használatával. Kilépés /  Módosítás )

Kapcsolódás: %s