TCL 2022 TCL 2022 TCL 2022

Umelá inteligencia od Googlu vytvorí z textového zadania HD video

Technológie
0

Google oznámil, že pracuje na vývoji Imagen Video, režimu umelej inteligencie na prevod textu na video, ktorý dokáže produkovať videá s rozlíšením 1280 × 768 pri 24 snímkach za sekundu na základe textového zadania. Oznámenie prišlo necelý týždeň po tom, čo spoločnosť Meta predstavila svoj nástroj umelej inteligencie na prevod textu na video Make-A-Video. 

Podľa dokumentu Googlu má Imagen Video niekoľko pozoruhodných schopností, dokáže napríklad vytvárať videá na základe diel slávnych maliarov (napríklad obrazov Vincenta van Gogha), vytvárať 3D rotujúce objekty pri zachovaní štruktúry objektu a vykresľovať zadaný textu v animáciách rôznych štýlov. Kľúčom k schopnostiam Imagen Video je „kaskáda“ siedmich difúznych modelov, ktoré transformujú počiatočný textový opis (napríklad „medveď umýva riad“) na video s nízkym rozlíšením (16 snímok, 24 × 48 pixelov, 3 snímky za sekundu).

Predplatné NEXTECH 2021

Následne ho s každým krokom upscalujú na čoraz vyššie rozlíšenia s vyššou snímkovou frekvenciou. Konečné výstupné video má dĺžku 5,3 sekundy. Príklady prezentované na webovej stránke Imagen Video siahajú od všedných („Topiaca sa zmrzlina stekajúca po kornútku“) až po fantastickejšie („Prelet ponad intenzívnu bitku medzi pirátskymi loďami na rozbúrenom oceáne“).

Hoci výsledky obsahujú zjavné artefakty, vykazujú viac plynulosti a detailov ako predchádzajúce modely prevodu textu na obrázok. V týchto dňoch oficiálne debutoval aj ďalší model prevodu textu na video. Nazýva sa Phenaki a dokáže vytvárať dlhšie videá z podrobných zadaní.

Zdroj: arstechnica.com.

Zobrazit Galériu

Redakcia

Všetky autorove články

Mohlo by vás zaujímať

Mohlo by vás zaujímať