
Umelá inteligencia dokáže vytvoriť portrét iba z hlasového záznamu danej osoby
Výskumníci v oblasti umelej inteligencie pracovali na rekonštrukcii tváre človeka len pomocou krátkej zvukovej nahrávky jeho rozprávania a výsledky sú veľmi pôsobivé. Prvé informácie o algoritme AI názvom Speech2Face publikovali výskumníci z Laboratória počítačovej vedy a umelej inteligencie na MIT v článku z roku 2019. Tím najprv navrhol a vycvičil hlbokú neurónovú sieť pomocou miliónov videí z YouTube a internetu, na ktorých sú zachytení hovoriaci ľudia.
Počas tohto tréningu sa umelá inteligencia naučila korelácie medzi zvukom hlasu a tým, ako hovoriaci vyzerá. Tieto korelácie jej umožnili čo najlepšie odhadnúť vek, pohlavie a etnický pôvod hovoriaceho. Po vyškolení bola umelá inteligencia pozoruhodne dobrá pri vytváraní portrétov len podľa hlasových záznamov, ktoré sa podobali na to, ako hovoriaci skutočne vyzeral. Na ďalšiu analýzu presnosti rekonštrukcií tváre výskumníci vytvorili „dekodér tváre“, ktorý robí štandardizovanú rekonštrukciu tváre osoby zo statického záberu, pričom ignoruje „irelevantné odchýlky“, ako je póza a osvetlenie.
To vedcom umožnilo ľahšie porovnať rekonštrukcie hlasu so skutočnými črtami hovoriaceho. Výsledky umelej inteligencie boli opäť vo veľkom percente prípadov nápadne blízke skutočným tváram. Vyskytli sa však aj prípady, v ktorých mala umelá inteligencia problém zistiť, ako môže hovoriaci vyzerať, a nesprávne odhadla aj pohlavie, vek alebo etnickú príslušnosť. Ľudí s vysokým hlasom (vrátane mladších chlapcov) často identifikovala ako ženy. Alebo napríklad Ázijčan hovoriaci po anglicky mal menej ázijský vzhľad, ako keď hovoril po čínsky.
Jedno z možných reálnych využití tejto technológie by mohlo byť vytvorenie kreslenej reprezentácie osoby počas telefonického alebo videokonferenčného hovoru, keď nie je známa jej identita. Rekonštruované tváre by sa dali použiť aj priamo, napríklad na priradenie tvárí strojovo generovaným hlasom používaným v domácich zariadeniach a virtuálnym asistentom. Takisto orgány činné v trestnom konaní by mohli použiť takúto umelú inteligenciu na vytvorenie portrétu, ktorý by zobrazoval pravdepodobnú podobu podozrivého, ak je jediným dôkazom hlasový záznam.
Zdroj: petapixel.com.
Zobrazit Galériu