SAMSUNG_022024C Advertisement SAMSUNG_022024C Advertisement SAMSUNG_022024C Advertisement

Meta Audiobox naklonuje váš hlas a vygeneruje aj zvukové efekty

Výskum a vývoj
0

Klonovanie hlasu je jedna z oblastí, ktoré sa objavili vďaka generatívnej umelej inteligencii. Tento výraz sa vzťahuje na replikáciu vokálnych štýlov osoby (výšky, zafarbenia hlasu, rytmu, spôsobov a jedinečnej výslovnosti) prostredníctvom technológie. Meta Platforms, materská spoločnosť Facebooku, Instagramu, WhatsApp a Oculus VR, vydala svoj vlastný bezplatný program Audiobox na klonovanie hlasu. Na webovej stránke Meta ho predstavili výskumníci pracujúci v laboratóriu Facebook AI Research (FAIR). Opisujú ho ako „nový základný výskumný model na generovanie zvuku“, ktorý bol postavený na skoršej práci laboratória v tejto oblasti s názvom Voicebox.

„Dokáže generovať hlasy a zvukové efekty pomocou kombinácie hlasových vstupov a textových zadaní v prirodzenom jazyku, čo uľahčuje vytváranie vlastného zvuku pre širokú škálu prípadov použitia,“ uvádza sa na webovej stránke Audioboxu. Jednoducho napíšete vetu, ktorú chcete povedať klonovaným hlasom, alebo opíšete zvuk, ktorý chcete vygenerovať, a Audiobox sa postará o zvyšok. Používatelia môžu takisto nahrať svoj hlas a nechať si ho naklonovať pomocou Audioboxu. Meta ďalej poznamenala, že vytvorila „rodinu modelov“ – jeden na napodobňovanie reči a druhý na generovanie okolitých zvukov a zvukových efektov, ako je štekot psov, sirény alebo džavot detí, a že všetky sú „vybudované na spoločnom samokontrolovanom modeli Audiobox SSL“.

Samokontrolované učenie (self-supervised learning – SSL) je technika strojového učenia s hlbokým učením, kde je model trénovaný na úlohy pomocou algoritmov umelej inteligencie na generovanie vlastných označení pre údaje namiesto toho, aby sa spoliehal na externé označenia poskytované ľuďmi. Samozrejme, väčšina popredných generatívnych modelov AI je silne závislá od údajov generovaných ľuďmi na trénovanie, ako vytvárať nový obsah, a Audiobox nie je výnimka.

Výskumníci FAIR mu poskytli „160 000 hodín reči (predovšetkým angličtiny), 20 000 hodín hudby a 6000 hodín zvukových vzoriek“. Zdrojom týchto údajov boli audioknihy, podcasty, prečítané vety, rozhovory a nahrávky v prírode. Výskumný dokument však presne nešpecifikuje, odkiaľ tieto údaje pochádzajú a či nejde potenciálne o materiál chránený autorskými právami bez výslovného súhlasu tvorcov/vlastníkov práv. Meta však tvrdí, že „Audiobox bol vyškolený na verejne dostupných a licencovaných súboroch údajov“.

Na predvedenie možností Audioboxu vydala spoločnosť aj množstvo interaktívnych ukážok. Takisto ponúka záujemcom možnosť vyskúšať si, ako to funguje. Meta umožňuje používateľom vytvárať aj úplne nové hlasy z textových opisov toho, ako by mali znieť („hlboký ženský hlas“ či „vysoký mužský hlas“ a pod.). Technológia sa zatiaľ nedá použiť na zárobkové/obchodné účely. Možno však očakávať, že sa to zmení a čoskoro budú k dispozícii komerčné verzie. Ak nie od spoločnosti Meta, tak od iných firiem.

Zdroj: venturebeat.com.

Zobrazit Galériu

Redakcia

Všetky autorove články

Pridať komentár

Mohlo by vás zaujímať

Mohlo by vás zaujímať