VALL-E dokáže napodobniť hlas kohokoľvek iba z 3-sekundového záznamu

Technológie

12.1.2023

Výskumníci z Microsoftu oznámili nový model umelej inteligencie na prevod textu na reč s názvom VALL-E, ktorý dokáže po trojsekundovej zvukovej vzorke presne simulovať hlas človeka. Keď sa VALL-E naučí konkrétny hlas, môže syntetizovať zvuk tejto osoby, nech hovorí čokoľvek. Pritom sa pokúsi zachovať aj emocionálny tón rečníka. Podľa tvorcov by sa VALL-E dal použiť na vysokokvalitné aplikácie prevodu textu na reč, úpravy reči, kde by bolo možné upraviť a zmeniť záznam osoby z textového prepisu (aby povedala niečo, čo pôvodne nehovorila), a vytváranie zvukového obsahu v kombinácii s inými generatívnymi AI modelmi, ako je GPT-3. Microsoft nazýva VALL-E „jazykovým modelom neurónového kodeku“ (neural codec language model) a stavia na technológii s názvom EnCodec, ktorú Meta oznámila v októbri 2022. Na rozdiel od iných metód prevodu textu na reč, ktoré zvyčajne syntetizujú reč manipuláciou s priebehmi zvukových vĺn, VALL-E generuje diskrétne zvukové kódy kodekov z textových a zvukových ...

Článok je uzamknutý

Pokračovanie článku patrí k prémiovému obsahu pre predplatiteľov. S digitálnym predplatným už od 10 € získate neobmedzený prístup k uzamknutému obsahu na celý rok. Objednať si ho môžete TU. Ak ho už máte prihláste sa TU

Prihlásiť pomocou členstva NEXTECH

Zobrazit Galériu