OpenAI pritvrdzuje v generovaní obrázkov: GPT-Image-1.5 má byť 4× rýchlejší a presnejší
KĽÚČOVÉ ZISTENIA:
-
Generovanie obrázkov má byť až 4× rýchlejšie.
-
Nové úpravy lepšie držia svetlo a kompozíciu.
-
Model je dostupný v ChatGPT aj cez API.
OpenAI oznámila nové vydanie ChatGPT Images postavené na modeli GPT-Image-1.5 a podľa firmy sa začalo sprístupňovať všetkým používateľom ChatGPT, zároveň aj vývojárom cez API. Zámer je jasný: zjednodušiť tvorbu aj editáciu obrázkov tak, aby pôsobili konzistentne naprieč iteráciami a aby sa pri úpravách „nerozpadávali“ detaily, ktoré chcete zachovať.
Najvýraznejší sľub znie jednoducho – obrázky sa majú generovať až štvornásobne rýchlejšie než v predchádzajúcej verzii ChatGPT Images. V praxi to nie je len o pohodlí, ale o tom, či je tvorba obrazových variácií použiteľná aj v reálnom pracovnom tempe, keď potrebujete skúšať desiatky drobných úprav a nechcete dlho čakať na každú z nich.
OpenAI tvrdí, že pri úpravách nahraných fotiek má model spoľahlivejšie nasledovať zámer používateľa „do malých detailov“ a meniť iba to, čo explicitne žiadate. Kľúčové je, že by pritom mal zachovávať konzistenciu prvkov ako osvetlenie, kompozícia a vzhľad ľudí naprieč vstupmi, výstupmi a následnými úpravami, čo bol doteraz jeden z najčastejších problémov pri bežnom „promptovaní“ editov.
Z pohľadu funkcií má GPT-Image-1.5 zvládať viac typov zásahov do obrazu: pridávanie, odoberanie, kombinovanie, miešanie prvkov aj ich „prekladanie“ v rámci scény. Popri praktických úpravách cieli aj na kreatívne transformácie, teda zmeny štýlu, práce s rozložením a prvkami grafického dizajnu, pričom ide o scenáre, kde sa často láme chlieb medzi „pekne vyzerá“ a „naozaj to sedí s mojím zadaním“.
Dôležitou novinkou je aj dôraz na text v obraze. OpenAI uvádza, že model sa posúva v renderovaní hustejšieho a menšieho textu, čo je presne oblasť, kde sa bežné generátory najľahšie prezradia deformovanými písmenami alebo zmenenými číslami.
Pre technologický a biznis obsah to nie je detail, ale rozdiel medzi obrázkom použiteľným do prezentácie a obrázkom, ktorý skončí v koši. Zmeny sa netýkajú len samotného modelu, ale aj práce v ChatGPT.
OpenAI predstavila samostatnú sekciu Images priamo v rozhraní, aby používateľ nemusel hľadať správne „kúty“ aplikácie, keď chce skúšať štýly a prompty. Firma zároveň spomína, že používateľ môže pokračovať v generovaní nových obrázkov, aj keď sa iné ešte spracúvajú, čo má pomôcť pri práci v dávkach.
Nie všetko však prichádza naraz pre všetkých. OpenAI uvádza, že nový Images zážitok sa rozbieha pre väčšinu používateľov, pričom prístup pre Business a Enterprise má prísť neskôr.
Pre firmy je to relevantné aj kvôli procesom, kde sa obrazový výstup používa v marketingu alebo v produktoch, a kde často rozhoduje dostupnosť v konkrétnom pláne. Pre vývojárov je podstatné, že GPT-Image-1.5 je dostupný cez OpenAI API a má definované aj konkrétne cenové a prevádzkové parametre.
V dokumentácii sa uvádza účtovanie textových tokenov na úrovni 5 USD za 1 milión vstupných tokenov (cached input 1,25 USD) a 10 USD za 1 milión výstupných tokenov, pričom pri „image tokenoch“ je to 8 USD za 1 milión vstupných (cached input 2 USD) a 32 USD za 1 milión výstupných tokenov.
Pre integrácie je dôležité aj to, že model má snapshot s označením gpt-image-1.5-2025-12-16, takže výstupy môžu byť stabilnejšie v čase, keď potrebujete konzistentné správanie v produkcii. Zaujímavý je aj kontext, v ktorom tento krok prichádza.
V rovnakom období Google predstavil Nano Banana Pro, obrazový model postavený na Gemini 3 Pro, ktorý je navrhnutý na generovanie aj editáciu obrázkov a Google ho pozicionuje ako nástroj so „štúdiovou“ presnosťou a kontrolou. Súboj už nie je len o tom, kto vie vytvoriť peknejší obrázok z jednej vety, ale kto dá používateľovi rýchlejší iteratívny workflow, lepšiu editáciu a menej frustrácie pri detailoch.
PREČO JE TO DÔLEŽITÉ:
Obrázky sa stávajú bežnou súčasťou práce a rozhoduje rýchlosť, presnosť a editácia, nie iba „wow efekt“.
Zdroj: analyticsindiamag.com foto: depositphotos.com