Umelá inteligencia dokáže vizualizovať to, na čo myslíte

Výskum a vývoj
0

Výskumníci Yu Takagi a Shinji Nishimoto z Graduate School of Frontier Biosciences na univerzite v Osake nedávno napísali článok, v ktorom načrtli, ako možno rekonštruovať obrázky s vysokým rozlíšením (hovoríme o 512 × 512 pixeloch) pomocou modelov latentnej difúzie čítaním aktivity ľudského mozgu, získanej z funkčného zobrazovania magnetickou rezonanciou (fMRI). Predchádzajúce štúdie zahŕňali „tréning a prípadne jemné ladenie generatívnych modelov, ako sú GAN, s rovnakým súborom údajov, aký sa používa v experimentoch fMRI“, vysvetľujú výskumníci.

Je to náročné, pretože práca s generatívnymi modelmi je nielen ťažká, ale aj školiaci materiál je mimoriadne obmedzený. Zdá sa, že vedci z Osaky dokázali obísť tieto obmedzenia pomocou stabilnej difúzie a výsledky vyzerajú skutočne pôsobivo. Predstavme si praktické použitie. Jedného dňa by nehovoriaci alebo ochrnutí ľudia, ktorí nedokážu niečo odfotiť, mohli byť schopní ukázať nám presne to, na čo myslia, a to pomocou umelej inteligencie.

Predplatné NEXTECH 2023

Ide o jednu z prvých štúdií, ktorá využíva difúzne modely týmto spôsobom. Stabilná difúzia sa v poslednom čase dostala pod paľbu kritiky – prinajmenšom v oblasti umenia. Niektoré difúzne modely (Stability AI, Midjourney a DeviantArt) totiž používajú obrázky chránené autorským právom, ktoré sa nachádzajú v obrovských katalógoch údajov používaných na trénovanie nástrojov na generovanie AI umenia. No ak sa údaje používajú správne, jednoduché trénovanie týchto modelov môže byť prínosom. Ľudia by mohli presne reprezentovať svoj vnútorný svet a komunikovať novými spôsobmi.

Zdroj: pcgamer.com.

Zobrazit Galériu

Redakcia

Všetky autorove články

Mohlo by vás zaujímať

Mohlo by vás zaujímať