VALL-E dokáže napodobniť hlas kohokoľvek iba z 3-sekundového záznamu

Technológie
0

Výskumníci z Microsoftu oznámili nový model umelej inteligencie na prevod textu na reč s názvom VALL-E, ktorý dokáže po trojsekundovej zvukovej vzorke presne simulovať hlas človeka. Keď sa VALL-E naučí konkrétny hlas, môže syntetizovať zvuk tejto osoby, nech hovorí čokoľvek. Pritom sa pokúsi zachovať aj emocionálny tón rečníka.

Podľa tvorcov by sa VALL-E dal použiť na vysokokvalitné aplikácie prevodu textu na reč, úpravy reči, kde by bolo možné upraviť a zmeniť záznam osoby z textového prepisu (aby povedala niečo, čo pôvodne nehovorila), a vytváranie zvukového obsahu v kombinácii s inými generatívnymi AI modelmi, ako je GPT-3. Microsoft nazýva VALL-E „jazykovým modelom neurónového kodeku“ (neural codec language model) a stavia na technológii s názvom EnCodec, ktorú Meta oznámila v októbri 2022.

Na rozdiel od iných metód prevodu textu na reč, ktoré zvyčajne syntetizujú reč manipuláciou s priebehmi zvukových vĺn, VALL-E generuje diskrétne zvukové kódy kodekov z textových a zvukových zadaní. V podstate analyzuje, ako človek znie, rozdeľuje tieto informácie na samostatné komponenty („tokeny“) vďaka EnCodec a používa výcvikové údaje na porovnanie toho, čo „vie“ o tom, ako by ten hlas znel, keby hovoril iné slová ako v trojsekundovej vzorke.

Spoločnosť trénovala schopnosti syntézy reči VALL-E na zvukovej knižnici LibriLight, ktorú zostavila Meta. Obsahuje 60 000 hodín reči v anglickom jazyku od viac ako 7000 rečníkov, väčšinou z verejne dostupných audiokníh LibriVox. Na demonštračnej webovej stránke VALL-E Microsoft poskytuje desiatky zvukových príkladov modelu umelej inteligencie.

Pri použití VALL-E na generovanie týchto výsledkov výskumníci vložili do modelu iba trojsekundovú vzorku „Speaker Prompt“ a textový reťazec (to, čo mal hlas povedať).  V niektorých prípadoch sú si tieto dve vzorky veľmi blízke. Niektoré výsledky VALL-E sa zdajú počítačovo generované, ale iné by sa mohli potenciálne pomýliť s ľudskou rečou, čo je cieľom modelu. Okrem zachovania vokálneho zafarbenia a emocionálneho tónu hovoriaceho dokáže VALL-E napodobniť aj „akustické prostredie“ ukážkového zvuku.

Ak napríklad vzorka pochádza z telefónneho hovoru, zvukový výstup bude simulovať akustické a frekvenčné vlastnosti telefónneho hovoru. Pre možnosť zneužitia modelu na podvody Microsoft neposkytol kód VALL-E ostatným na experimentovanie. Zdá sa, že vedci si uvedomujú potenciálne spoločenské škody, ktoré by táto technológia mohla priniesť. Tvrdia, že na zmiernenie takýchto rizík možno zostaviť detekčný model na rozlišovanie, či bol zvukový klip syntetizovaný VALL-E.

Zdroj: arstechnica.com.

Zobrazit Galériu

Redakcia

Všetky autorove články

Mohlo by vás zaujímať

Mohlo by vás zaujímať