MagicAnimate a Animate Anyone dokážu roztancovať kohokoľvej iba zo statickej fotky
Generatívna AI dokáže vytvárať fotorealistické obrázky, no objavili sa už aj modely, ktoré dokážu generovať videá. Čínske spoločnosti Bytedance a Alibaba teraz ukázali modely, ktoré vytvárajú fotorealistické videoklipy animovaných ľudí. Hoci spoločnosti používajú mierne odlišné architektúry, obe v podstate využívajú difúzne modely prispôsobujúce obrázky modelu, ktorý určuje polohy napríklad tanečnej sekvencie.
MagicAnimate od spoločnosti Bytedance a Show Lab na Národnej univerzite v Singapure a Animate Anyone od spoločnosti Alibaba a Inštitútu pre inteligentné výpočty generujú krátke videoklipy tancujúcich ľudí alebo kreslených postavičiek z referenčného obrázka a tanečnej sekvencie. Pomocou metód, ako je ControlNet a technika časovej stability, dosahujú videá oveľa vyššiu konzistenciu ako iné modely na prevod textu na video alebo obrazu na video, pričom prekonávajú súčasný najlepší benchmark takmer o 40 percent.
Obe metódy vyžadujú na generovanie videí iba jeden obrázok a jednu pohybovú sekvenciu – môže to byť skutočná osoba, Mona Lisa alebo obrázok vygenerovaný AI. Bytedance MagicAnimate môže dokonca animovať niekoľko ľudí súčasne. Kód pre MagicAnimate je dostupný na stránkach projektu na webe Github. K dispozícii je aj demo pre MagicAnimate. Kód pre Animate Anyone by mal byť čoskoro dostupný aj na Githube – tím chce pred vydaním urobiť nejaké zlepšenia.
Zdroj: the-decoder.com.