SAMSUNG_042024 Advertisement SAMSUNG_042024 Advertisement SAMSUNG_042024 Advertisement

Umelá inteligencia generuje z textu hudbu so zvukom v CD kvalite

Výskum a vývoj
1

Predstavte si, že napíšete zadanie „dramatická úvodná hudba“ a môžete si vypočuť vzletnú symfóniu, prípadne napíšete „strašidelné kroky“ a dostanete vysokokvalitné zvukové efekty. To sľubuje Stable Audio, model umelej inteligencie na prevod textu na zvuk, ktorý nedávno oznámila spoločnosť Stability AI a ktorý dokáže syntetizovať stereo hudbu alebo zvuky podľa textových opisov. Stability AI je spoločnosť, ktorá pomohla financovať vytvorenie modelu Stable Diffusion, modelu syntézy obrazu technikou latentnej difúzie, ktorý bol vydaný v auguste 2022.

Teraz sa rozvetvila do oblasti zvuku tým, že podporila laboratórium AI Harmonai, ktoré v septembri spustilo generátor hudby Dance Diffusion. V súčasnosti chcú spoločnosti Stability a Harmonai so svojím nástrojom Stable Audio preraziť v oblasti komerčnej produkcie zvuku pomocou umelej inteligencie. Súdiac podľa produkčných vzoriek sa zdá, že ide o výrazné zlepšenie kvality zvuku oproti predchádzajúcim generátorom zvuku s umelou inteligenciou. Na trénovanie svojho modelu spoločnosť Stability využila súbor údajov „pozostávajúci z viac ako 800 000 zvukových súborov obsahujúcich hudbu, zvukové efekty a stopy jednotlivých nástrojov, ako aj zodpovedajúce textové metadáta“.

SAMSUNG 042024 Advertisement

Po vložení 19 500 hodín zvukových záznamov do modelu vie Stable Audio na povel napodobniť určité zvuky, ktoré počul, pretože zvuky boli v rámci jeho neurónovej siete spojené s ich textovými opismi. Stable Audio obsahuje niekoľko častí, ktoré spolupracujú na rýchlom vytvorení prispôsobeného zvuku. Jedna časť zmenšuje zvukový súbor tak, že zachováva jeho dôležité vlastnosti a zároveň odstraňuje nepotrebný šum. Vďaka tomu sa systém rýchlejšie učí a zároveň rýchlejšie vytvára nový zvuk. Ďalšia časť využíva text (metadáta s opisom hudby a zvukov), ktorý pomáha usmerniť, aký druh zvuku sa má vytvoriť.

Na urýchlenie architektúra Stable Audio pracuje so značne zjednodušenou, komprimovanou reprezentáciou zvuku, aby sa skrátil čas inferencie (čas, ktorý model strojového učenia potrebuje na vygenerovanie výstupu, keď mu bol zadaný vstup). Podľa Stability AI dokáže Stable Audio vyrendrovať 95 sekúnd 16-bitového stereofónneho zvuku so vzorkovacou frekvenciou 44,1 kHz (často označovanou ako kvalita CD, pretože zodpovedá technickým špecifikáciám formátu CD) za menej ako jednu sekundu na grafickom procesore NVIDIA A100.

Ide o výkonný grafický procesor pre dátové centrá, určený na použitie v umelej inteligencii, ktorý je oveľa výkonnejší ako typické desktopové herné GPU. Stable Audio nie je prvý generátor hudby založený na technikách latentnej difúzie. V januári spoločnosť Google vydala MusicLM, generátor hudby s umelou inteligenciou na zvuk so vzorkovacou frekvenciou 24 kHz, a Meta v auguste uviedla na trh súbor nástrojov s otvoreným zdrojovým kódom (vrátane generátora premeny textu na hudbu) s názvom AudioCraft.

So stereo zvukom 44,1 kHz však Stable Diffusion zvyšuje latku. Spoločnosť tvrdí, že Stable Audio bude k dispozícii v bezplatnej verzii a v mesačnom pláne Pro za 12 dolárov. V rámci bezplatnej možnosti môžu používatelia mesačne vygenerovať až 20 stôp, pričom každá z nich má maximálnu dĺžku 20 sekúnd. Plán Pro tieto limity rozširuje a umožňuje generovanie 500 stôp mesačne a dĺžku skladby až 90 sekúnd.

Zdroj: arstechnica.com.

Zobrazit Galériu

Redakcia

Všetky autorove články

1 komentár

blbecLackoAHubinsky reakcia na: Umelá inteligencia generuje z textu hudbu so zvukom v CD kvalite

20.9.2023 21:09
blbecLackoAHubinsky
Reagovať

Pridať komentár

Mohlo by vás zaujímať

Mohlo by vás zaujímať