SAMSUNG_052022 Advertisement SAMSUNG_052022 Advertisement SAMSUNG_052022 Advertisement

Umelá inteligencia dokáže vytvoriť portrét iba z hlasového záznamu danej osoby

Výskum a vývoj
4

Výskumníci v oblasti umelej inteligencie pracovali na rekonštrukcii tváre človeka len pomocou krátkej zvukovej nahrávky jeho rozprávania a výsledky sú veľmi pôsobivé. Prvé informácie o algoritme AI názvom Speech2Face publikovali výskumníci z Laboratória počítačovej vedy a umelej inteligencie na MIT v článku z roku 2019. Tím najprv navrhol a vycvičil hlbokú neurónovú sieť pomocou miliónov videí z YouTube a internetu, na ktorých sú zachytení hovoriaci ľudia.

Počas tohto tréningu sa umelá inteligencia naučila korelácie medzi zvukom hlasu a tým, ako hovoriaci vyzerá. Tieto korelácie jej umožnili čo najlepšie odhadnúť vek, pohlavie a etnický pôvod hovoriaceho. Po vyškolení bola umelá inteligencia pozoruhodne dobrá pri vytváraní portrétov len podľa hlasových záznamov, ktoré sa podobali na to, ako hovoriaci skutočne vyzeral. Na ďalšiu analýzu presnosti rekonštrukcií tváre výskumníci vytvorili „dekodér tváre“, ktorý robí štandardizovanú rekonštrukciu tváre osoby zo statického záberu, pričom ignoruje „irelevantné odchýlky“, ako je póza a osvetlenie.

To vedcom umožnilo ľahšie porovnať rekonštrukcie hlasu so skutočnými črtami hovoriaceho. Výsledky umelej inteligencie boli opäť vo veľkom percente prípadov nápadne blízke skutočným tváram. Vyskytli sa však aj prípady, v ktorých mala umelá inteligencia problém zistiť, ako môže hovoriaci vyzerať, a nesprávne odhadla aj pohlavie, vek alebo etnickú príslušnosť. Ľudí s vysokým hlasom (vrátane mladších chlapcov) často identifikovala ako ženy. Alebo napríklad Ázijčan hovoriaci po anglicky mal menej ázijský vzhľad, ako keď hovoril po čínsky.

Jedno z možných reálnych využití tejto technológie by mohlo byť vytvorenie kreslenej reprezentácie osoby počas telefonického alebo videokonferenčného hovoru, keď nie je známa jej identita. Rekonštruované tváre by sa dali použiť aj priamo, napríklad na priradenie tvárí strojovo generovaným hlasom používaným v domácich zariadeniach a virtuálnym asistentom. Takisto orgány činné v trestnom konaní by mohli použiť takúto umelú inteligenciu na vytvorenie portrétu, ktorý by zobrazoval pravdepodobnú podobu podozrivého, ak je jediným dôkazom hlasový záznam.

Zdroj: petapixel.com.

Zobrazit Galériu

Redakcia

Všetky autorove články

4 komentáre

Vice versa reakcia na: Umelá inteligencia dokáže vytvoriť portrét iba z hlasového záznamu danej osoby

24.4.2022 11:04
Šlo by to zrejme aj naopak - z fotografie (najlepšie z hologramu) rekonštruovať hlas osoby.
Je známe, že počúvajúcemu znie nahrávka jeho vlastného hlasu cudzo. Ako by mu znela nahrávka hlasu podľa jeho fotografie? S tým by sa dokázali vyhrať psychológovia aj psychiatri. Napríklad.
Reagovať

Hlupy Luboslav Lacko reakcia na: Umelá inteligencia dokáže vytvoriť portrét iba z hlasového záznamu danej osoby

20.4.2022 20:04
Hlupy Luboslav Lacko
Reagovať

Viete ako mi to pripada? reakcia na: Umelá inteligencia dokáže vytvoriť portrét iba z hlasového záznamu danej osoby

20.4.2022 09:04
Ako keby program porovnaval nahravky a snimky z internetu s neznamym vzorkom hlasu. Nechce sa mi verit ze by cisto z hlasu bolo mozne odhadnut taky detail ako farbu vlasov ci pokozky
Reagovať

RE: Viete ako mi to pripada? reakcia na: Viete ako mi to pripada?

21.4.2022 20:04
Neuronova siet ma svoju pamat danu datami ktorymi bola trenovanva. Javi sa mi ze toto vyuzitie NN je chybne, hoci preco sa s takouto implementaciou nepohrat a overit si to.
Reagovať

Pridať komentár

Mohlo by vás zaujímať

Mohlo by vás zaujímať