MOBILTEL - Mobilné multimodálne telekomunikačné systémy a služby

Za posledné desaťročie sa prostredie telekomunikácií dramaticky zmenilo a pevná telefónna sieť už nie je dominantnou v telekomunikačnej sieti. Mobilné telefóny, vreckové a tabuľkové počítače, bezdrôtové prístupové siete, Internet a konvergencia počítačových a telekomunikačných sietí so sebou prináša významnú potrebu nasadenia nových rýchlych a flexibilných multimediálnych služieb, služieb s pridanou hodnotou, umožňujúcich prístup k rôznym typom informácií, nachádzajúcich sa najmä v " útrobách " Internetu.

Budúcnosnosť v multimodálnych službách

Mnoho odborníkov z oblasti poskytovania multimediálnych služieb konštatuje, že prirodzená ľudská reč sa v blízkej budúcnosti stane preferovaným prostriedkom nových multimediálnych telekomunikačných služieb, najmä pre mobilné aplikácie. Ich hlavnými argumentom je, že ľudská reč ponúka predovšetkým prirodzený spôsob interakcie s danou službou a navyše vstupný rečový mód spĺňa rastúce požiadavky pre miniaturizáciu terminálov, hlavne u aplikácií v prostredí mobilných sietí. Plnohodnotné využitie mobilných multimediálnych služieb si však vyžaduje použitie multimodálnych mobilných terminálov s hlasovým, grafickým a dátovým vstupom/výstupom. I keď je počet hlasom ovládaných multimediálnych aplikácií a služieb, nasadených v bežnej prevádzke v porovnaní s inými zatiaľ nízky, trend je nesporne stúpajúci.

Využitie rečových dialógových systémov

Rečové dialógové systémy si už našli cestu na trh a rad funkčných pilotných aj komerčných systémov je už v prostredí telekomunikácií prevádzkovaných. Príkladmi takýchto automatizovaných systémov sú aplikácie konverzie reči na text (Speech-to-Text), textu na reč (Text-to-Speech), automatickej voľby čísla vyslovením mena účastníka, hlasom ovládané informačné systémy pre cestovné poriadky, ale tiež automatizované kontaktné a zákaznícke centrá, poskytujúce informácie rôzneho druhu, od predpovede počasia až po aktuálne ceny akcií.

Čo je to multimodalita?

Pojem modalita sa vzťahuje k forme senzorického vnímania: počutie, videnie, dotyk, chuť, hmat a čuch. Z nášho pohľadu je zaujímavá komunikácia človek-stroj, preto definujeme modalitu ako komunikačný kanál medzi používateľom a zariadením. Predchádzajúce typy vnímania môžu byť skombinované do multimodálneho rozhrania, obsahujúceho zvuk (vo forme reči), obraz (vo forme textu, grafiky, videa) a dotyk. Pričom použitie inej vstupnej a výstupnej modality nepovažujeme za multimodálnu službu (napríklad vstupná modalita hlas a výstupná text a grafika).

Rozoznávame multimodálne a multimediálne služby, kde médium predstavuje druh reprezentácie informácie v rámci príslušnej modality. Napríklad reč a hudba sú rôzne médiá tej istej sluchovej modality. Text, grafika a video sú príkladom rôznych typov médií vizuálnej modality.

Kombinovanie viacerých modalít

Viacero vstupných a výstupných modalít môže byť kombinovaných rôznymi spôsobmi. Odporúčania World Wide Web Konzorciom (W3C) rozoznávajú 3 rôzne typy kombinovania multimodálnych vstupov a výstupov: nekoordinované,simultánne a koordinované simultánne )multimodálne vstupy a výstupy, čo je podrobne rozpísané v nasledujúcej stati.

Viaceré vstupné modality

Sekvenčný multimodálny vstup je najjednoduchší spôsob, kde vstupy z rôznych modalít sú interpretované nezávisle. Pre každý stav dialógu je dostupná len jedna modalita, avšak počas celej interakcie je možné použiť viac ako jednu modalitu.

Nekoordinovaný simultánny multimodálny vstup

V tomto prípade je niekoľko paralelných vstupov aktívnych v tom istom čase. To znamená, že je možné si zvoliť modalitu, ktorú na interakciu využijeme, interpretovaná však bude iba jedna (tá prvá).

Koordinovaný simultánny multimodálny vstup

V tomto prípade je dostupná viac ako jedna modalita a všetky vstupy môžu byť interpretované v tom istom čase. Interpretácia závisí od fúzie čiastkových informácií z rôznych modalít.

Viaceré výstupné modality

W3C rozoznáva 3 rôzne implementačné schémy pre multimodálne výstupy. Na výstupnej strane je rozdiel sekvenčného a nekoordinovaného simultánneho spôsobu reprezentácie výstupu menej odlíšiteľný, pretože grafický displej je statický počas prehrávania hlasovej modality. V koordinovanom simultánnom spôsobe výstupu môže byť informácia podporená jednak významom hovorenej správy, a jednak zmenami grafického displeja, napríklad aj pohybom a gestami virtuálneho agenta.

Rečovo orientované multimodality

Niektoré multimodálne systémy používajú pokročilé vstupné informácie ako sledovanie očí, rozpoznávanie gest tváre, a výstupy ako napríklad animácie tváre virtuálneho agenta na obrazovke apod. Pre telekomunikačné služby na malých mobilných termináloch je však výhodnejšie použiť rečovo orientované multimodality, teda napríklad reč a dotyk, a ako výstup reč a obraz. To znamená napríklad kombináciu automatického rozpoznávača reči a dotykového displeja, alebo stláčania kláves malého mobilného terminálu, takzvaný " tap and talk ". Výstup je takisto reč a s ňou text alebo grafika. Rečovo orientované multimodality využívajú fakt, že pero či grafika a reč sú komplementárne. Výhoda pera sa prejaví hlavne tam kde je reč nedostatočnou alebo pomalou modalitou. Rečou je obvyklé sa pýtať jednu otázku obsahujúcu viacero kľúčových slov, ale je únavné počúvať všetky informácie čítané nahlas. Ak je dostupné iba pero, je náročné vkladať dáta, ale je zase jednoduché zvoliť jednu z možností zobrazenej na obrazovke.

Čo je fúzia a "fízia" (delenie)

Vzhľadom na to, že multimodálne systémy majú viac než jeden vstupný resp. výstupný kanál, musí existovať mechanizmus pre mapovanie:

  • niekoľkých vstupných kanálov na jeden sémantický tok (nazýva sa fúzia )
  • sémantický tok do niekoľko výstupných kanálov (nazvime ho fízia )

Z technického hľadiska si väčšiu pozornosť vyžaduje fúzia, pretože dobre zvolená stratégia fúzie môže redukovať chyby rozpoznávania. Vo všeobecnosti sa fúzia delí do dvoch tried: skorá fúzia (early fussion) a neskorá fúzia (late fussion). Skorá fúzia predstavuje integráciu vstupných kanálov v niektorej z prvých fáz spracovania, najčastejšie na úrovni vektorov parametrov pre systém(y) rozpoznávania. Neskorá fúzia využíva integráciu výstupov systémov rozpoznávania obyčajne na úrovni sémantickej interpretácie. Pri fúzii sú dôležité časové závislosti medzi rôznymi typmi vstupných kanálov. V multimodálnych systémoch sa tento problém zvykne označovať synchronizácia a realizovaná je prostredníctvom preddefinovaného časového okna, v ktorom sa očakávajú jednotlivé vstupy. Presnejšia synchronizácia môže byť dosiahnutá použitím časových značiek uchovávajúcich čas generovania jednotlivých vstupov, čím sa zníži pravdepodobnosť vzniku chýb spôsobených oneskorením prenosu.