
Komentár: Budúcnosť hlasových asistentov bude možno iná, ako sme očakávali
Od príchodu Amazon Echo v roku 2014 boli inteligentné reproduktory a hlasové asistentky ohlasované ako ďalšia veľká vec. Po takmer štyroch rokoch je napriek miliónom predaných zariadení jasné, že to bolo trochu zveličené. Väčšina ľudí nevyužíva Alexu na nákup, čo bol jeden z hlavných spôsobov propagovaného používania hlasovej asistentky Amazonu s umelou inteligenciou.
Hlasové asistentky však existovali už skôr. Apple uviedol Siri pre zariadenia iOS v roku 2011. No Echo bolo prvé zariadenie, kde bol hlas jediným vstupným rozhraním pre používateľa. A po rokoch vývoja sú obmedzenia hlasového ovládania čoraz zjavnejšie. Aby nedošlo k nedorozumeniu, hlasové asistentky sú veľmi užitočné, ich používanie sa bude ďalej rozširovať a budú integrované do stále väčšieho počtu zariadení, ale nebudú všadeprítomným spôsobom, ako sa to naznačovalo skôr.
Budúcnosť hlasu je spojená s integráciou umelej inteligencie v množstve úzko špecifických úloh namiesto všeobecného AI asistenta, ktorý dokáže splniť takmer všetko, čo si zmyslíte. Aby sme lepšie porozumeli rozsahu schopností hlasových asistentov, musíme pochopiť technológiu, ktorá je ich základom.
Rovnako ako iný špičkový softvér aj hlasové asistentky sú poháňané úzkou umelou inteligenciou, čo je druh AI, ktorý je mimoriadne efektívny pri vykonávaní špecifických úloh, ale nie je schopný robiť všeobecné abstraktné rozhodnutia ako ľudská myseľ. Konkrétnejšie, hlasoví asistenti využívajú dve špecifické oblasti AI: rozpoznávanie hlasu a spracovanie prirodzeného jazyka (natural language processing – NLP). Keď používateľ vysloví príkaz Alexe, časť určená na rozpoznávanie hlasu prevádza zvukové vlny na písané slová. Časť NLP potom preberá tieto slová a spracúva príkazy, ktoré obsahujú.
Rozpoznávanie hlasu aj NLP existovali už dlho, ale pokrok v strojovom učení, hlbokom učení a neurónových sieťach v posledných rokoch tieto oblasti zásadne zmenil. Keď napríklad poskytnete neurónovej sieti tisícky a milióny hlasových vzoriek a im zodpovedajúcich slov, naučí sa vytvoriť základný softvér, ktorý dokáže premeniť hlasové príkazy na písaný text. Je to veľký posun od tradičného spôsobu vytvárania softvéru, kde vývojári museli ručne písať pravidlá na analýzu zvukových vĺn, čo je veľmi náročný proces, navyše náchylný na chyby.
Rovnaký prístup, teda učenie založené na príkladoch sa využíva aj pri NLP, ktoré analyzuje rôzne nuansy ľudského jazyka a pochopí základné príkazy. Táto technológia tvorí základ konverzačných robotov (chatbotov) aj veľmi presného prekladového enginu spoločnosti Google. Problém však spôsobuje integrácia priveľa príkazov do inteligentných reproduktorov. Rozpoznávanie hlasu je relatívne úzke pole. To znamená, že ak máte dostatok vzoriek, môžete vytvoriť model, ktorý dokáže rozpoznať a prepísať hlasové príkazy vyslovené za rôznych okolností, s rôznym akcentom a pri rozličných zvukoch na pozadí.
Spracovanie prirodzeného jazyka je však náročná súčasť inteligentných reproduktorov, pretože to nie je úzka oblasť. Ak máme hlasového asistenta, ktorý môže vykonať tri či štyri špecifické príkazy, umelej inteligencii možno poskytnúť dostatok vzorov rôznych spôsobov, ako môže používateľ tieto príkazy vysloviť, a vyvinúť takmer bezchybný model na pochopenie a splnenie týchto príkazov.
Tento model však funguje iba pri malom počte špecifických príkazov. No Amazon Echo, Google Home či Apple HomePod nepracujú týmto spôsobom. Napríklad Amazon umožňuje vývojárom vytvárať nové zručnosti pre svoje zariadenia s technológiou Alexa a od uvedenia reproduktora Echo už vznikol obrovský trh s viac ako 30 000 zručnosťami. Problém je v tom, že ak má hlasový asistent priveľa zručností, používateľ nie je schopný zapamätať si zoznam príkazov, ktoré môže využiť. Ak teda asistent môže vykonávať veľmi veľa úloh, používateľ očakáva, že bude schopný pochopiť a urobiť všetko, čo mu to povie.
No bez ohľadu na to, koľko funkcií a možností pridáte hlasovému asistentovi, vždy to bude iba malý zlomok toho, čo zvládne ľudský mozog. Navyše hlasoví asistenti sú obmedzení hranicami algoritmov hlbokého učenia, čo znamená, že môžu pracovať iba v oblastiach, pre ktoré boli vyškolení. Alternatívou je vytvoriť umelú inteligenciu na všeobecné použitie, ktorá môže urobiť všetko, o čo ju používateľ požiada, no to potrvá ešte celé desaťročia.
Pri stolových počítačoch, notebookoch či smartfónoch sa nestretávame s problémom so zručnosťami, pretože tieto zariadenia majú grafické rozhranie (GUI), ktoré jasne definuje možnosti a hranice každej aplikácie. Keď zapnete počítač so systémom Windows alebo Mac, rýchlo uvidíte zoznam nainštalovaných aplikácií a získate prehľad o úlohách, ktoré s ním môžete vykonávať.
Pri inteligentnom reproduktore môžete použiť mobilné zariadenie na zobrazenie zoznamu zručností, ktoré sú na reproduktore nainštalované. Ale to znamená, že musíte použiť druhé zariadenie, ktoré pravdepodobne takisto dokáže vykonať úlohu, ktorú ste chceli zadať reproduktoru. Alternatívou by bolo pridanie displeja do inteligentného reproduktora, ako je to v prípade Echo Show a Echo Spot. No ak na inteligentný reproduktor pridáte displej, zrejme bude dotykový a stane sa hlavným používateľským rozhraním a hlasové ovládanie bude voliteľná sekundárna funkcia. Tak je to aj so Siri na zariadeniach s iOS a Mac OS.
Ďalší problém s hlasom je v tom, že nie je vhodný pre komplexné, viacstupňové úlohy. Napríklad pri nakupovaní sa človek rozhoduje medzi rôznymi možnosťami, čo je ťažké urobiť, ak ich nemáte zobrazené. Inteligentný reproduktor alebo hlasový asistent môže byť vhodný na nákup bežných predmetov do domácnosti, ako sú čistiace prostriedky či toaletný papier, ale nie na oblečenie alebo elektronické zariadenia, ktoré sú veľmi rozmanité. Takisto vykonanie rezervácie, kde sa vyžaduje prechod medzi jednotlivými obrazovkami alebo položkami ponuky, je pre hlasového asistenta veľmi náročné.
Väčšina používateľov preto využíva inteligentný reproduktor na prehrávanie hudby, nastavenie časovačov, zapínanie svetiel a podobné jednoduché úlohy. Z toho všetkého vyplýva, že hlasoví asistenti majú budúcnosť, ale uplatnenie nájdu len v prostredí, kde používatelia chcú vykonávať jednoduché úlohy. Namiesto toho, aby jednotlivé zariadenia dokázali plniť veľký počet hlasových príkazov, sa dočkáme mnohých zariadení, z ktorých každé môže vykonávať obmedzený počet hlasových povelov.
Je ľahké si predstaviť, že napríklad žiarovky, rúra na pečenie a termostaty dokážu spracovať hlasové príkazy buď prostredníctvom pripojenia ku cloudu, alebo pomocou lokálneho hardvéru. Na rozdiel od inteligentného reproduktora v obývacej izbe, žiarovke alebo rúre môžete dať len veľmi málo príkazov, takže je dosť nepravdepodobné, že by používatelia stratili prehľad o svojich možnostiach alebo začali dávať príkazy, ktorým hlasový asistent nebude rozumieť.
Ďalšie vhodné prostredie pre hlasových asistentov sú autá. Funkcie, ktoré používateľ vykonáva vo vozidle, sú takisto obmedzené (otvorenie kufra, zamknutie dverí, prehrávanie hudby, zapnutie stieračov, nastavenie navigácie). A tu je hlasové ovládanie vyslovene výhodnejšie ako ručné vykonávanie úloh.
Ale skutočný potenciál umelej inteligencie a hlasových asistentov sa môže prejaviť v headsetoch s rozšírenou realitou. V nastaveniach rozšírenej reality totiž musia používatelia vykonávať rôzne zložité úlohy a zároveň komunikovať s vonkajším svetom, čo znamená, že nebudú môcť používať vstupné zariadenia, ako sú klávesnice a myši. Za pomoci iných technológií, ako je sledovanie očí a rozhranie mozog – počítač (BCI), asistenti s umelou inteligenciou umožnia používateľom bezproblémovo komunikovať s ich virtuálnym aj fyzickým prostredím.
Rozpoznávanie hlasu a hlasové asistentky sú veľmi sľubné odvetvia umelej inteligencie, aj keď ich potenciál sa môže trochu líšiť od našich očakávaní.
Zdroj: thenextweb.com.
Zobrazit Galériu