SAMSUNG_092022 Advertisement SAMSUNG_092022 Advertisement SAMSUNG_092022 Advertisement

Odteraz už nikdy nebudete môcť veriť tomu, čo vidíte na webe

6

Novo vydaný nástroj Stable Diffusion s otvoreným zdrojovým kódom umožňuje komukoľvek, kto má k dispozícii počítač so slušným GPU, vyčariť takmer akúkoľvek vizuálnu realitu. Dokáže napodobniť prakticky akýkoľvek vizuálny štýl, a keď mu poskytnete textový opis, výsledky sa na obrazovke objavia ako mávnutím čarovného prútika. Niektorí umelci sú z tejto perspektívy nadšení, iní menej.

Syntéza obrazu bude mať pravdepodobne také veľké dôsledky ako vynález fotoaparátu, možno povedie k vytvoreniu samostatnej formy vizuálneho umenia. Tak či onak, Stable Diffusion sa pridal k novej vlne kreatívnych nástrojov ISM (image synthesis model – model na syntézu obrazu) s hlbokým učením, ktoré sú pripravené spôsobiť revolúciu vo vytváraní vizuálneho obsahu. V apríli 2022 OpenAI oznámil DALL-E 2, ktorý šokoval sociálne médiá svojou schopnosťou transformovať scénu opísanú slovami na nespočetné množstvo vizuálnych štýlov.

Krátko po DALL-E 2 Google a Meta predstavili svoje vlastné modely AI na prevod textu na obrázok. Aj MidJourney, ktorý je od marca 2022 k dispozícii ako Discord server a o niekoľko mesiacov neskôr bol otvorený pre verejnosť so spoplatneným prístupom, dosahuje podobné efekty. Potom 22. augusta spoločnosť Stability AI vydala svoj open source model generovania obrázkov Stable Diffusion, ktorý sa kvalitou pravdepodobne vyrovná DALL-E 2.

Spustila aj svoju komerčnú webovú stránku s názvom DreamStudio, ktorá za poplatok ponúka prístup k výpočtovému času na generovanie obrázkov pomocou Stable Diffusion. Na rozdiel od DALL-E 2 ho môže používať ktokoľvek, a keďže kód Stable Diffusion je open source, projekty na ňom môžu vznikať len s malými obmedzeniami. Na Windows počítači s GPU NVIDIA RTX 3060 12 GB dokáže vygenerovať obrázky s rozlíšením 512 × 512 px približne za 10 sekúnd. Na 3090 Ti sa tento čas skráti na štyri sekundy.

Ako funguje stabilná difúzia

Väčšina nedávno uvedených nástrojov ISM používa techniku ​​nazývanú latentná difúzia. Model sa v podstate naučí rozpoznávať známe tvary v poli čistého šumu a potom postupne zaostrí na tieto prvky, ak sa zhodujú so slovami v opise (výzve). Na začiatku osoba alebo skupina, ktorá trénuje model, zhromaždí obrázky s metadátami (ako sú alt tagy a titulky nachádzajúce sa na webe) a vytvorí veľkú množinu údajov. V prípade Stable Diffusion používa Stability AI podmnožinu obrazového súboru LAION-5B, čo je v podstate obrovský obraz, zložený z 5 miliárd obrázkov verejne prístupných na internete.

Mnohé z nich pochádzajú zo stránok ako Pinterest, DeviantArt a dokonca aj Getty Images. Výsledkom je, že Stable Diffusion absorboval štýly mnohých žijúcich umelcov (a niektorí z nich aj dôrazne vystúpili proti tejto praxi). Následne sa model trénuje na súbore obrazových údajov pomocou stoviek špičkových grafických procesorov, ako je napríklad NVIDIA A100. Podľa Emada Mostaqua, duchovného otca Stable Diffusion, stálo doteraz trénovanie modelu 600 000 dolárov (odhady nákladov na trénovanie iných ISM sa zvyčajne pohybujú v miliónoch dolárov).

Počas tréningového procesu model spája slová s obrázkami vďaka technike nazvanej CLIP (Contrastive Language-Image Pre-training), ktorú vynašla spoločnosť OpenAI a ohlásila len minulý rok. Prostredníctvom tréningu sa ISM využívajúci latentnú difúziu učí štatistické asociácie o tom, kam zvyčajne patria určité farebné pixely vo vzťahu k ostatným pre každý subjekt. Nemusí teda nevyhnutne „rozumieť“ ich vzťahu na vyššej úrovni. Po ukončení procesu trénovania model nikdy nereplikuje žiadne obrázky zo zdrojového súboru, ale namiesto toho vytvára nové kombinácie štýlov na základe toho, čo sa naučil.  

V súčasnosti sa Stable Diffusion nestará o to, či má človek tri ruky, dve hlavy alebo šesť prstov na každej ruke, takže pokiaľ nie ste čarodejník pri vytváraní textových opisov (výziev) potrebných na generovanie skvelých výsledkov, budete zrejme musieť vygenerovať veľa obrázkov a vybrať tie najlepšie. Čím viac sa vaša výzva zhoduje s titulkami pre známe obrázky v množine tréningových údajov, tým je pravdepodobnejšie, že získate požadovaný výsledok. V budúcnosti sa pravdepodobne modely zlepšia natoľko, že sa zníži potreba výberu, prípadne výber za vás urobí nejaký interný filter.

Etické a právne problémy

Ako už bolo naznačené, zverejnenie aplikácie Stable Diffusion vyvolalo poplach medzi ľuďmi, ktorí sa obávajú jej kultúrneho a ekonomického vplyvu. Na rozdiel od programu DALL-E 2 sú tréningové údaje  Stable Diffusion k dispozícii komukoľvek na použitie bez akýchkoľvek obmedzení. Oficiálne vydanie Stable Diffusion obsahuje automatické filtre NSFW (na nahotu) a neviditeľný vodoznak vložený do obrázkov, ale tieto obmedzenia sa dajú v otvorenom kóde ľahko obísť.

To znamená, že Stable Diffusion možno použiť na vytváranie obrázkov, ktoré OpenAI v súčasnosti pri DALL-E 2 blokuje (propaganda, násilné obrázky, pornografia, obrázky, ktoré potenciálne porušujú autorské práva spoločností, deepfakes celebrít a pod.). Hoci licencia Stable Diffusion oficiálne zakazuje mnohé z týchto použití, pri open source kóde je presadzovanie obmedzení veľmi ťažké, ak nie nemožné.

Ako už bolo spomenuté, Stable Diffusion si vyslúžil aj hnev umelcov na Twitteri pre schopnosť modelu napodobňovať štýl žijúcich umelcov. Súbor obrázkov použitý na trénovanie Stability Diffusion obsahuje milióny umeleckých diel zozbieraných od žijúcich umelcov bez konzultácie s nimi, čo vyvoláva etické otázky týkajúce sa autorstva a autorských práv. Ak teda technológiu syntézy obrazu v budúcnosti začnú používať veľké korporácie, mali by svoje modely trénovať na súbore „čistých“ údajov, ktorý zahŕňa licencovaný obsah, obrázky z verejných domén a pod., aby sa vyhli niektorým z týchto etických problémov.

Čo bude nasledovať

Ako naznačujú historické trendy vo výpočtovej technike, je veľmi pravdepodobné, že to, na čo je teraz potrebný výkonný grafický procesor, bude nakoniec možné aj vo vreckovom smartfóne. „Je pravdepodobné, že Stable Diffusion bude fungovať na smartfóne do jedného roka,“ povedal Mostaque. Nové technológie časom umožnia trénovať tieto modely na lacnejších zariadeniach.

Možno sa čoskoro dočkáme explózie kreatívnej tvorby poháňanej umelou inteligenciou. V dohľadnom čase možno očakávať generovanie fotorealistického videa prostredníctvom textových pokynov. Potom je už logické rozšíriť tieto schopnosti na zvuk a hudbu, videohry v reálnom čase a 3D VR zážitky. Onedlho môže pokročilá umelá inteligencia vykonávať väčšinu kreatívnej práce len na základe niekoľkých podnetov.

ISM predstavujú aj formu kompresie obrazu. Stable Diffusion preberá stovky miliónov obrázkov a komprimuje poznatky o nich do 4,2 GB súboru. Možno si predstaviť, že by sa v budúcnosti použila variácia tejto technológie napríklad na komprimáciu 8K celovečerného filmu do niekoľkých megabajtov textu. Keď sa tak stane, ktokoľvek by si mohol týmto spôsobom vytvoriť aj vlastné celovečerné filmy. Dôsledky tejto technológie sa ešte len začínajú skúmať, takže nás môže zaviesť novými zvláštnymi smermi, ktoré v súčasnosti nedokážeme predvídať.

Realistické modely syntézy obrazu sú potenciálne nebezpečné z dôvodov, ako je vytváranie propagandy alebo dezinformácií, manipulácia s históriou, vydávanie sa za iných a ničenie právnej hodnoty fotografických alebo video dôkazov. Ako budeme môcť v budúcnosti poháňanej umelou inteligenciou na diaľku určiť, či nejaký mediálny materiál pochádza zo skutočnej kamery alebo či komunikujeme so skutočným človekom?  

Zdroj: arstechnica.com.

Zobrazit Galériu

Redakcia

Všetky autorove články

6 komentárov

Hlupy Luboslav kLacko klame vsade na nete reakcia na: Odteraz už nikdy nebudete môcť veriť tomu, čo vidíte na webe

13.9.2022 01:09
Hlupy Luboslav kLacko klame vsade na nete
Reagovať

Tak to ja už dávno som videl v porne hrať ľudí z nášho mesta, ktorých stretávam v činžiaku aj v parku a tiež Emmu Watson reakcia na: Odteraz už nikdy nebudete môcť veriť tomu, čo vidíte na webe

12.9.2022 14:09
Tak to ja už dávno som videl v porne hrať ľudí z nášho mesta, ktorých stretávam v činžiaku aj v parku a tiež Emmu Watson s tou jej malou kundičkou. Suseda, kamarátova mama hrala s Francúzmi, len tak pichala. A tiež spolužiačka z vysokej roztiahla nohy. Ja len kukám, že títo všetci hrajú péčko??? Alebo to je deep fake???
Reagovať

RE: To je asi dýp fejk, lebo ja som len tak námatkovo hľadal na porno serveroch a našiel som tam hrať tvár mojej sestry reakcia na: Tak to ja už dávno som videl v porne hrať ľudí z nášho mesta, ktorých stretávam v činžiaku aj v parku a tiež Emmu Watson

12.9.2022 16:09
To je asi dýp fejk, lebo ja som len tak námatkovo hľadal na porno serveroch a našiel som tam hrať tvár mojej sestry. Normálne v geng bengu pichala s asi piatimi chlapmi. Fo asi z fejsbúku berú tí, ktorí sa takto hrajú s počítačmi a používajú cudzie tváre.
Reagovať

RE: To je ešte nič, ja som videl v péčku Mirku a Lenku z Markízy TV. LEn sa tak natriasali tie ich tváričky na pipíku :-D reakcia na: Tak to ja už dávno som videl v porne hrať ľudí z nášho mesta, ktorých stretávam v činžiaku aj v parku a tiež Emmu Watson

12.9.2022 14:09
To je ešte nič, ale niekto dýp fejkol Markízákov a tiež hrajú v péčku. Normálne tvár z Markízy TV a pichá nahá v péčku, len si to tak užíva :-D To sa asi tiež niekto hral s počítačom.
Reagovať

RE: RE: Jaj vidíte, mohol som si nechať link. Ale ja som to len preklikol a išiel zasa ďalej. Nemám link. reakcia na: RE: To je ešte nič, ja som videl v péčku Mirku a Lenku z Markízy TV. LEn sa tak natriasali tie ich tváričky na pipíku :-D

19.9.2022 14:09
Nemám link, ale Mirka bola na vrchu a otáčala hlavou vzad, pán ju pichal zo spodu a Lenka z Markízy tá tiež zvrchu pichala. Bolo to na pornhube niekde, tam hľadajte. Ešte som sa divil, že niekto s počítačom upravil Markízákov. Ale to veľa som takto videl upravených videjí. Dokonca som našiel moju učiteľku náboženstva ako trtá v porne a ešte všetkým ukázala prostredník, že kašlem na vás vy hlupáci, aha ako si užívam. Je tam deväť miliónov videí, môžete začať prehľadávať celý pornhub :-D To asi z facebooku niekto zobral predlohy pre umelú inteligenciu a spravil dýp fejk.
Reagovať

RE: RE: To je ešte nič, ja som videl v péčku Mirku a Lenku z Markízy TV. LEn sa tak natriasali tie ich tváričky na pipíku :-D reakcia na: RE: To je ešte nič, ja som videl v péčku Mirku a Lenku z Markízy TV. LEn sa tak natriasali tie ich tváričky na pipíku :-D

14.9.2022 16:09
Poprosim odkaz.
Reagovať

Pridať komentár

Mohlo by vás zaujímať

Mohlo by vás zaujímať