Nová verzia GPT-5.2 prestáva byť iba “chat” a začína robiť skutočnú prácu
OpenAI predstavilo GPT-5.2 v troch variantoch pre ChatGPT: Instant, Thinking a Pro. Najdôležitejší posun nie je v tom, že model napíše “krajší text”, ale že má vo vyššej miere zvládať konkrétne pracovné úlohy s menším rizikom rozpadnutého formátu, vynechaných požiadaviek a chýb v detailoch.
Výrobca tento posun demonštruje metrikou GDPval, ktorá hodnotí dobre špecifikované znalostné úlohy naprieč 44 povolaniami. GPT-5.2 Thinking v tomto hodnotení dosiahlo 70,9 % “výhier alebo remíz” proti špičkovým profesionálom podľa ľudských hodnotiteľov, zatiaľ čo pri GPT-5 sa uvádza 38,8 %. Nejde teda o malý kozmetický rozdiel, ale o skok, ktorý má v praxi znamenať menej situácií, keď model pôsobí presvedčivo, no výstup nie je použiteľný.
Pre bežného používateľa je na GDPval zaujímavé, že nejde len o “správnu odpoveď” v konverzácii. Úlohy majú mať podobu hotových výstupov, ako sú prezentácie, tabuľky a ďalšie artefakty, ktoré pripomínajú reálnu prácu.
Práve tu doteraz často narážala aj dobrá generatívna AI: nápad bol fajn, no výsledok sa rozpadol na detailoch, štruktúre alebo disciplíne pri dlhšom postupe. Variant Pro ide podľa zverejnených čísel ešte vyššie. V GDPval dosahuje 74,1 % “výhier alebo remíz”, čo naznačuje, že rozdiel medzi “Thinking” a “Pro” nie je len o rýchlosti, ale aj o spoľahlivosti pri pracovných scenároch.
V interných úlohách “junior investment banking” tabuľkového modelovania sa uvádza posun priemerného skóre z 59,1 % na 68,4 % (Thinking) a na 71,7 % (Pro), čo je presne ten typ činnosti, kde sa chyba v jednom riadku dokáže v rozpočte alebo modeli rozliezť ako škvrna. Zlepšenia sa ukazujú aj v programovaní.
OpenAI uvádza, že GPT-5.2 Thinking dosahuje 55,6 % na SWE-Bench Pro (public) oproti 50,8 % pri GPT-5.1 Thinking, a na SWE-bench Verified 80,0 % oproti 76,3 %. Takéto čísla treba čítať pragmaticky: neznamenajú, že “AI je programátor”, ale že pri dobre definovaných bugfixoch a úlohách má väčšiu šancu trafiť riešenie bez zbytočného šumu.
Zaujímavá je aj časť o chybovosti odpovedí. Výrobca uvádza metriku “ChatGPT answers without errors”, kde je pri použití vyhľadávania 93,9 % pre GPT-5.2 Thinking oproti 91,2 % pri GPT-5.1 Thinking.
Bez vyhľadávania sa uvádza 88,0 % oproti 87,3 %, čo je menší posun, ale stále smerom k stabilite v situáciách, keď model nemá oporu v externých zdrojoch. Veľký dôraz sa kladie aj na dlhý kontext. OpenAI zverejňuje výsledky na MRCRv2, ktoré testujú schopnosť nájsť konkrétne informácie v dlhom texte naprieč rozsahmi od 4k až po 256k tokenov.
Ak sa podobné zlepšenie prenesie do praxe, prejaví sa to tým, že model menej “zabudne”, čo mu bolo povedané pred pár tisícmi tokenov, a lepšie udrží požiadavky na formát a obsah až do konca výstupu. Pre firmy a vývojárov sú dôležité aj detaily dostupnosti a ceny.
OpenAI uvádza, že GPT-5.2 sa v ChatGPT začína sprístupňovať plateným plánom a GPT-5.1 má zostať pre platených používateľov tri mesiace ako “legacy”, po čom má byť v ChatGPT ukončený. V API sú k dispozícii modely pomenované napríklad gpt-5.2 a gpt-5.2-chat-latest, pričom sa uvádza cena 1,75 USD za milión vstupných tokenov a 14 USD za milión výstupných tokenov, spolu s 90 % zľavou na cache vstupy.
PREČO JE TO DÔLEŽITÉ:
Ak sa AI zlepšuje v tvorbe tabuliek, prezentácií a dlhých, disciplinovaných výstupov, mení to produktivitu v práci rýchlejšie než “lepšie písanie”. Zároveň to zvyšuje tlak na kontrolu kvality a zodpovednosť za výsledné rozhodnutia.
Zdroj: geeky-gadgets.com, openai.com foto: depositphotos.com