
Odteraz už nikdy nebudete môcť veriť tomu, čo vidíte na webe
Novo vydaný nástroj Stable Diffusion s otvoreným zdrojovým kódom umožňuje komukoľvek, kto má k dispozícii počítač so slušným GPU, vyčariť takmer akúkoľvek vizuálnu realitu. Dokáže napodobniť prakticky akýkoľvek vizuálny štýl, a keď mu poskytnete textový opis, výsledky sa na obrazovke objavia ako mávnutím čarovného prútika. Niektorí umelci sú z tejto perspektívy nadšení, iní menej.
Syntéza obrazu bude mať pravdepodobne také veľké dôsledky ako vynález fotoaparátu, možno povedie k vytvoreniu samostatnej formy vizuálneho umenia. Tak či onak, Stable Diffusion sa pridal k novej vlne kreatívnych nástrojov ISM (image synthesis model – model na syntézu obrazu) s hlbokým učením, ktoré sú pripravené spôsobiť revolúciu vo vytváraní vizuálneho obsahu. V apríli 2022 OpenAI oznámil DALL-E 2, ktorý šokoval sociálne médiá svojou schopnosťou transformovať scénu opísanú slovami na nespočetné množstvo vizuálnych štýlov.
Krátko po DALL-E 2 Google a Meta predstavili svoje vlastné modely AI na prevod textu na obrázok. Aj MidJourney, ktorý je od marca 2022 k dispozícii ako Discord server a o niekoľko mesiacov neskôr bol otvorený pre verejnosť so spoplatneným prístupom, dosahuje podobné efekty. Potom 22. augusta spoločnosť Stability AI vydala svoj open source model generovania obrázkov Stable Diffusion, ktorý sa kvalitou pravdepodobne vyrovná DALL-E 2.
Spustila aj svoju komerčnú webovú stránku s názvom DreamStudio, ktorá za poplatok ponúka prístup k výpočtovému času na generovanie obrázkov pomocou Stable Diffusion. Na rozdiel od DALL-E 2 ho môže používať ktokoľvek, a keďže kód Stable Diffusion je open source, projekty na ňom môžu vznikať len s malými obmedzeniami. Na Windows počítači s GPU NVIDIA RTX 3060 12 GB dokáže vygenerovať obrázky s rozlíšením 512 × 512 px približne za 10 sekúnd. Na 3090 Ti sa tento čas skráti na štyri sekundy.
Ako funguje stabilná difúzia
Väčšina nedávno uvedených nástrojov ISM používa techniku nazývanú latentná difúzia. Model sa v podstate naučí rozpoznávať známe tvary v poli čistého šumu a potom postupne zaostrí na tieto prvky, ak sa zhodujú so slovami v opise (výzve). Na začiatku osoba alebo skupina, ktorá trénuje model, zhromaždí obrázky s metadátami (ako sú alt tagy a titulky nachádzajúce sa na webe) a vytvorí veľkú množinu údajov. V prípade Stable Diffusion používa Stability AI podmnožinu obrazového súboru LAION-5B, čo je v podstate obrovský obraz, zložený z 5 miliárd obrázkov verejne prístupných na internete.
Mnohé z nich pochádzajú zo stránok ako Pinterest, DeviantArt a dokonca aj Getty Images. Výsledkom je, že Stable Diffusion absorboval štýly mnohých žijúcich umelcov (a niektorí z nich aj dôrazne vystúpili proti tejto praxi). Následne sa model trénuje na súbore obrazových údajov pomocou stoviek špičkových grafických procesorov, ako je napríklad NVIDIA A100. Podľa Emada Mostaqua, duchovného otca Stable Diffusion, stálo doteraz trénovanie modelu 600 000 dolárov (odhady nákladov na trénovanie iných ISM sa zvyčajne pohybujú v miliónoch dolárov).
Počas tréningového procesu model spája slová s obrázkami vďaka technike nazvanej CLIP (Contrastive Language-Image Pre-training), ktorú vynašla spoločnosť OpenAI a ohlásila len minulý rok. Prostredníctvom tréningu sa ISM využívajúci latentnú difúziu učí štatistické asociácie o tom, kam zvyčajne patria určité farebné pixely vo vzťahu k ostatným pre každý subjekt. Nemusí teda nevyhnutne „rozumieť“ ich vzťahu na vyššej úrovni. Po ukončení procesu trénovania model nikdy nereplikuje žiadne obrázky zo zdrojového súboru, ale namiesto toho vytvára nové kombinácie štýlov na základe toho, čo sa naučil.
V súčasnosti sa Stable Diffusion nestará o to, či má človek tri ruky, dve hlavy alebo šesť prstov na každej ruke, takže pokiaľ nie ste čarodejník pri vytváraní textových opisov (výziev) potrebných na generovanie skvelých výsledkov, budete zrejme musieť vygenerovať veľa obrázkov a vybrať tie najlepšie. Čím viac sa vaša výzva zhoduje s titulkami pre známe obrázky v množine tréningových údajov, tým je pravdepodobnejšie, že získate požadovaný výsledok. V budúcnosti sa pravdepodobne modely zlepšia natoľko, že sa zníži potreba výberu, prípadne výber za vás urobí nejaký interný filter.
Etické a právne problémy
Ako už bolo naznačené, zverejnenie aplikácie Stable Diffusion vyvolalo poplach medzi ľuďmi, ktorí sa obávajú jej kultúrneho a ekonomického vplyvu. Na rozdiel od programu DALL-E 2 sú tréningové údaje Stable Diffusion k dispozícii komukoľvek na použitie bez akýchkoľvek obmedzení. Oficiálne vydanie Stable Diffusion obsahuje automatické filtre NSFW (na nahotu) a neviditeľný vodoznak vložený do obrázkov, ale tieto obmedzenia sa dajú v otvorenom kóde ľahko obísť.
To znamená, že Stable Diffusion možno použiť na vytváranie obrázkov, ktoré OpenAI v súčasnosti pri DALL-E 2 blokuje (propaganda, násilné obrázky, pornografia, obrázky, ktoré potenciálne porušujú autorské práva spoločností, deepfakes celebrít a pod.). Hoci licencia Stable Diffusion oficiálne zakazuje mnohé z týchto použití, pri open source kóde je presadzovanie obmedzení veľmi ťažké, ak nie nemožné.
Ako už bolo spomenuté, Stable Diffusion si vyslúžil aj hnev umelcov na Twitteri pre schopnosť modelu napodobňovať štýl žijúcich umelcov. Súbor obrázkov použitý na trénovanie Stability Diffusion obsahuje milióny umeleckých diel zozbieraných od žijúcich umelcov bez konzultácie s nimi, čo vyvoláva etické otázky týkajúce sa autorstva a autorských práv. Ak teda technológiu syntézy obrazu v budúcnosti začnú používať veľké korporácie, mali by svoje modely trénovať na súbore „čistých“ údajov, ktorý zahŕňa licencovaný obsah, obrázky z verejných domén a pod., aby sa vyhli niektorým z týchto etických problémov.
Čo bude nasledovať
Ako naznačujú historické trendy vo výpočtovej technike, je veľmi pravdepodobné, že to, na čo je teraz potrebný výkonný grafický procesor, bude nakoniec možné aj vo vreckovom smartfóne. „Je pravdepodobné, že Stable Diffusion bude fungovať na smartfóne do jedného roka,“ povedal Mostaque. Nové technológie časom umožnia trénovať tieto modely na lacnejších zariadeniach.
Možno sa čoskoro dočkáme explózie kreatívnej tvorby poháňanej umelou inteligenciou. V dohľadnom čase možno očakávať generovanie fotorealistického videa prostredníctvom textových pokynov. Potom je už logické rozšíriť tieto schopnosti na zvuk a hudbu, videohry v reálnom čase a 3D VR zážitky. Onedlho môže pokročilá umelá inteligencia vykonávať väčšinu kreatívnej práce len na základe niekoľkých podnetov.
ISM predstavujú aj formu kompresie obrazu. Stable Diffusion preberá stovky miliónov obrázkov a komprimuje poznatky o nich do 4,2 GB súboru. Možno si predstaviť, že by sa v budúcnosti použila variácia tejto technológie napríklad na komprimáciu 8K celovečerného filmu do niekoľkých megabajtov textu. Keď sa tak stane, ktokoľvek by si mohol týmto spôsobom vytvoriť aj vlastné celovečerné filmy. Dôsledky tejto technológie sa ešte len začínajú skúmať, takže nás môže zaviesť novými zvláštnymi smermi, ktoré v súčasnosti nedokážeme predvídať.
Realistické modely syntézy obrazu sú potenciálne nebezpečné z dôvodov, ako je vytváranie propagandy alebo dezinformácií, manipulácia s históriou, vydávanie sa za iných a ničenie právnej hodnoty fotografických alebo video dôkazov. Ako budeme môcť v budúcnosti poháňanej umelou inteligenciou na diaľku určiť, či nejaký mediálny materiál pochádza zo skutočnej kamery alebo či komunikujeme so skutočným človekom?
Zdroj: arstechnica.com.
Zobrazit Galériu