Mobilní diktování - nejlepší kompenzační pomůcka

Skvělá pomůcka pro osoby se sluchovám postižením, které mazlivě říkáme (autor článku neslyší) "kouzelná krabička" je diktování textu s převodem do písemné podoby.

 

Na konferenci INSPO 2010 měla přednášku Ing. Magdaléna Nekolná z Newton Technologies o mobilním diktování, laskavě poskytla podklady pro tento článek a zodpověděla několik všetečných dotazů ohledně "kouzelné krabičky".
I když bylo mobilní diktování původně vyvíjeno hlavně pro jinou cílovou skupinu (právníky lékaře), je to skvělá kompenzační pomůcka pro osoby se sluchovým postižením, které komunikují v českém jazyce (asi 450 000 z 500 000 – viz průzkum Doc. Ing. Jaroslava Hrubého) – někdo řekne sdělení do mikrofonu a ono se to napíše na displeji – co víc si přát.
Mobilní diktování je zatím sice stále ve fázi vývoje, nicméně „blýská se na časy“. Oproti INSPO 2009 kde byl „v obležení“ zástupce Newton Technologies Ing. Petr Herian, došel vývoj velikému pokroku a je pro osoby se sluchovým postlžením velmi dobře použitelné – právě probíhá testování a Ing. Magdaléna Nekolná mi například v březnu na INSPO 2010 při našem rozhovoru diktovala do mobilu. V době, kdy píšu tento článek, je už připraveno i testování samotnými osobami se sluchovým postižením (viz níže "pilotní projekt").

Přednáška Ing. Nekolné na INSPO 2010

Automatický přepis mluvené řeči na mobilní telefon

NEWTON Technologies, a.s., Na Pankráci 127, Praha 4, magdalena.nekolna(zavináč)newtontech.cz

Anotace: Pomocí programu Newton Dictate Mobile se řeč diktujícího přenese přes internet na vzdálený server, který v reálném čase mluvené slovo převede do textu a pošle zpět na mobilní telefon. Uživatel tak má k dispozici mobilní zařízení pro rozpoznávání mluvené řeči. Podmínkou využívání této technologie je mobilní připojení na internet a osvojení si základních principů diktování.

Automatický přepis mluvené češtiny

Rozvoj moderních hlasových technologií založených na počítačovém zpracování signálů a metodách umělé inteligence umožnil vznik softwarových nástrojů, které jsou schopny automaticky přepisovat mluvenou řeč. První programy umožňující spojité diktování do počítače v češtině, byly vyvinuty na Technické univerzitě v Liberci mezi lety 2003 až 2005. Trvalo však ještě několik let, než mohly být dovedeny do podoby komerčně dostupného softwaru.
Čeština patří mezi jazyky s velkou mírou ohebnosti. Podstatná jména, přídavná jména, zájmena a číslovky se skloňují, slovesa se časují. Při tomto procesu vznikají nové slovní tvary, jejichž existenci je třeba brát v úvahu při procesu rozpoznávání řeči. Pokud jsou obsaženy ve slovníku rozpoznávacího systému, je šance, že budou správně rozpoznány. V opačném případě, tedy když některý slovní tvar ve slovníku není, nemůže být nikdy správně rozpoznán a systém se při přepisu dopustí chyby. (Kvůli kontextu může tato chyba zasáhnout i okolní slova.)
Rozdíl mezi lexikálním inventářem angličtiny a češtiny si můžeme demonstrovat na příkladu v tabulce 1. Zatímco anglické slovo „driver“ se může vyskytnout pouze ve třech různých tvarech, v češtině stejnému slovu odpovídá několik desítek různých forem podstatného jména v mužském i ženském rodu, a dále přídavného jména, včetně přivlastňovacích tvarů.

AngličtinaČeština

Tab. 1 – Porovnání angličtiny a češtiny z pohledu ohebnosti slov


Morfologie češtiny je natolik bohatá, že počet slovních tvarů vyskytujících se v psané a mluvené podobě dosahuje několika milionů, zatímco v angličtině se jedná spíše o desítky tisíc. Systém pro rozpoznávání češtiny musí proto pracovat s několikanásobně větším slovníkem, což samozřejmě komplikuje návrh algoritmů, zpomaluje jejich činnost a zvyšuje nároky na výpočetní výkon. Nejvýkonnější diktovací systém navržený pro češtinu nyní používá slovník obsahující cca 500 tisíc nejfrekventovanějších slovních tvarů.
Dalším velkým problémem češtiny je relativně volné pořadí slov ve větě. Zatímco angličtina vyžaduje, aby věta měla pevnou strukturu (např. podmět – přísudek – předmět – příslovečné určení), v češtině lze pořadí slov často změnit, aniž by věta získala odlišný význam (Např. věta „Pavel potkal Evu“ může existovat v podobách „Evu potkal Pavel“ nebo „Potkal Pavel Evu“.) Tato velká volnost způsobuje, že metody rozpoznávání řeči založené na statistikách výskytu sousedních slov nepracují v češtině tak dobře jako v angličtině.
Nakonec zmíníme ještě jeden velký problém rozpoznávání řeči, který je ale společný pro většinu jazyků. Zatímco v písemné podobě děláme mezi jednotlivými slovy mezeru a díky tomu pak přesně vidíme, kde slovo začíná a končí, v mluvené podobě žádná hranice mezi slovy neexistuje. V běžné plynulé řeči totiž jedno slovo navazuje na druhé a pauzy děláme většinou jen na místech, kde se potřebujeme nadechnout, případně rozmyslet. Jevy jako asimilace a koartikulace navíc výrazně zasahují do výsledné podoby promluvy. Rozdíl mezi psanou a mluvenou řečí demonstruje příklad v tabulce 2.

ašsevráťížzavolejminalinkupječesedum

 

Program Newton Dictate Mobile

Od roku 2008 je zájemcům k dispozici také první český program umožňující diktování do počítače běžnou plynulou řečí. Vznikl na základě požadavků zejména soudců, právníků, lékařů a novinářů, tedy profesí, v nichž je potřeba vytvářet velké množství textových dokumentů. Do té doby si tyto osoby texty psaly samy, nebo je diktovaly asistentům či sekretářkám, případně je zaznamenávaly na diktafon a pak je nechávaly přepsat. Program, který je výsledkem spolupráce výzkumného týmu na Technické univerzitě v Liberci a firmy Newton Technologies a.s. a který proto nese název Newton Dictate, jim tuto práci významnou měrou usnadňuje a zefektivňuje.

Automatický přepis mluvené řeči pro mobily

Program Newton Dictate Mobile řeč diktujícího přenese přes internet na vzdálený server, který v reálném čase mluvené slovo převede do textu a během několika vteřin pošle zpět na mobilní telefon. K přepisu plynulé řeči využívá rozsáhlé slovníky s podporou statistického jazykového modelu. Úspěšnost přepisu závisí na složitosti textu (zejména na počtu méně frekventovaných slov a exotických vlastních jmen), dále na stylu diktování, výslovnosti a také na určitém cviku uživatele. Bez adaptace na konkrétní hlas lze běžně dosáhnout přesnost kolem 95 %. Pokud uživatel provede adaptaci na svůj hlas (pomocí dodávaného modulu), tato hodnota se zvyšuje obvykle o další 2 až 3 %. Program Newton Dictate Mobile umožňuje diktování prakticky libovolného tématu, přičemž u odborných textů jsou třeba speciální slovníky. Program pracuje se všeobecným slovníkem, který v současné době obsahuje kolem půl milionu nejfrekventovanějších českých slov. Pokud se člověk seznámí se všemi možnostmi programu a naučí se s ním efektivně pracovat, představuje pro něj diktování výraznou úsporu času a nákladů. Program má velký potenciál i po hendikepované osoby.

Literatura:

Autor, A.: Název knihy. Vydavatelství, místo vydání, rok.

  • Jan Nouza, Petr Červa, Jindřich Žďánský: Programy pro diktování do počítače a možnosti jejich využití osobami se speciálními potřebami, článek bude uveřejněn v roce 2010 v časopisu Speciální pedagogika
  • Webové stránky společnosti NEWTON Technologies, a.s. http://www.diktovani.cz/
  • Webové stránky Laboratoře počítačového zpracování řeči na Technické univerzitě v Liberci www.ite.tul.cz/speechlab/

Všetečné dotazy:

Mobilní diktování zatím probíhá tak, že slovník je na serveru a je třeba připojení k internetu. Osoby se sluchovým postižením převážně nemají takové příjmy, aby si mohly dovolit celodenní internet do mobilu. Bude také verze mobilního diktování, kdy bude slovník v mobilním zařízení a internetu nebude třeba, jako je tomu u diktování do stolního počítače?

Do budoucna s verzí NEWTON Dictate Mobile se slovníkem umístěným přímo v mobilním telefonu počítáme. Je však otázkou, kdy se na trh dostanou tak výkonné telefony, které by náročnou úlohu jako je rozpoznání mluveného slova hardwarově zvládly. Nyní samotné rozpoznání hlasu probíhá na vzdáleném serveru. Uživatel proto vždy dostane optimální výsledek a nezáleží na tom, jak výkonný je jeho mobil. Zanedlouho bude spuštěn pilotní projekt pro 5 osob se sluchovým postižením ve spolupráci s Telefónica O2 Czech Republic, která zapůjčí telefony a poskytne bezplatné připojení k Internetu.

Převážná část osob se sluchovým postižením není technicky zdatná, či nemá (a ani nechce) mobilní telefon s operačním systémem. Připojování k internetu a provoz mobilního diktování také „sežere“ energii a zařízení pak nemusí vydržet ani do večera na běžné „mobilní“ věci (SMS). Mnohem lepší by asi byl úplně samostatný přístroj (diktafon), který by nespotřebovával energii mobilního telefonu. Zařízení by mělo svůj operační systém, slovník by byl nahrán v přístroji, takže by nebyl potřeba internet a hlavně by to bylo všechno „na jedno tlačítko“ ve stylu zmáčkne > diktuje > přepisuje se (viz muj neumělý obrázek).


Vím, že je to v této fázi v podstatě sci-fi. Na INSPO 2010 jste však předváděla multifunkční diktovací konzoli na diktování do počítače Philips SpeechMike, která je oproti nasazování sluchátek s mikrofonem mnohem pohodlnější. Chci se tedy zeptat, jestli se o něčem takovém, jako je samostatný přístroj „na jedno tlačítko“ neuvažuje, protože pak by to byla ta pravá „kouzelná krabička“ použitelná i pro osoby jenž přicházejí o sluch ve vyšším věku a nejsou technicky vůbec zdatné. Navíc mívají úplně nejobyčejnější mobilní telefon na kterém mají potíže s napsáním SMS a ovládat zařízení s operačním systémem nezvládnou. A ta „lepší“ varianta, by byla dost dobrá například i pro novináře, kdy by si mohli uložit nadiktovaný text k článku v písemné podobě, či text z rozhovoru.

Je to velmi zajímavý nápad. K jeho realizaci však nejprve musíme najít vhodného výrobce hardwaru, případně zkusit oslovit dodavatele hlasových záznamníků jako například Philips nebo Olympus. Na samotné koncepci kouzelné krabičky bychom určitě spolupracovali přímo s uživateli se sluchovým postižením, abychom jim přístroj jak se říká „ušili na míru“. Stejné je to s počítačovou aplikací NEWTON Dictate – spolupracujeme s uživateli a snažíme se jim program přizpůsobit, aby splňoval jejich potřeby. Pokud se týká novinářů, již nyní mohou využívat počítačový program NEWTON Dictate v kombinaci s digitálním hlasovým záznamníkem. Uživatel jednoduše nadiktuje text do záznamníku, ten si pak může následně v aplikaci nechat přepsat.

 

 

Autor: Ladislav Kratochvíl | úterý 7.12.2010 11:35 | karma článku: 13,32 | přečteno: 5054x