ANTIK_2024 ANTIK_2024 ANTIK_2024

Nová verzia GPT-5.2 prestáva byť iba “chat” a začína robiť skutočnú prácu

Technológie
0

OpenAI predstavilo GPT-5.2 v troch variantoch pre ChatGPT: Instant, Thinking a Pro. Najdôležitejší posun nie je v tom, že model napíše “krajší text”, ale že má vo vyššej miere zvládať konkrétne pracovné úlohy s menším rizikom rozpadnutého formátu, vynechaných požiadaviek a chýb v detailoch.

Výrobca tento posun demonštruje metrikou GDPval, ktorá hodnotí dobre špecifikované znalostné úlohy naprieč 44 povolaniami. GPT-5.2 Thinking v tomto hodnotení dosiahlo 70,9 % “výhier alebo remíz” proti špičkovým profesionálom podľa ľudských hodnotiteľov, zatiaľ čo pri GPT-5 sa uvádza 38,8 %. Nejde teda o malý kozmetický rozdiel, ale o skok, ktorý má v praxi znamenať menej situácií, keď model pôsobí presvedčivo, no výstup nie je použiteľný.

Pre bežného používateľa je na GDPval zaujímavé, že nejde len o “správnu odpoveď” v konverzácii. Úlohy majú mať podobu hotových výstupov, ako sú prezentácie, tabuľky a ďalšie artefakty, ktoré pripomínajú reálnu prácu.

Práve tu doteraz často narážala aj dobrá generatívna AI: nápad bol fajn, no výsledok sa rozpadol na detailoch, štruktúre alebo disciplíne pri dlhšom postupe. Variant Pro ide podľa zverejnených čísel ešte vyššie. V GDPval dosahuje 74,1 % “výhier alebo remíz”, čo naznačuje, že rozdiel medzi “Thinking” a “Pro” nie je len o rýchlosti, ale aj o spoľahlivosti pri pracovných scenároch.

V interných úlohách “junior investment banking” tabuľkového modelovania sa uvádza posun priemerného skóre z 59,1 % na 68,4 % (Thinking) a na 71,7 % (Pro), čo je presne ten typ činnosti, kde sa chyba v jednom riadku dokáže v rozpočte alebo modeli rozliezť ako škvrna. Zlepšenia sa ukazujú aj v programovaní.

OpenAI uvádza, že GPT-5.2 Thinking dosahuje 55,6 % na SWE-Bench Pro (public) oproti 50,8 % pri GPT-5.1 Thinking, a na SWE-bench Verified 80,0 % oproti 76,3 %. Takéto čísla treba čítať pragmaticky: neznamenajú, že “AI je programátor”, ale že pri dobre definovaných bugfixoch a úlohách má väčšiu šancu trafiť riešenie bez zbytočného šumu.

Zaujímavá je aj časť o chybovosti odpovedí. Výrobca uvádza metriku “ChatGPT answers without errors”, kde je pri použití vyhľadávania 93,9 % pre GPT-5.2 Thinking oproti 91,2 % pri GPT-5.1 Thinking.

Bez vyhľadávania sa uvádza 88,0 % oproti 87,3 %, čo je menší posun, ale stále smerom k stabilite v situáciách, keď model nemá oporu v externých zdrojoch. Veľký dôraz sa kladie aj na dlhý kontext. OpenAI zverejňuje výsledky na MRCRv2, ktoré testujú schopnosť nájsť konkrétne informácie v dlhom texte naprieč rozsahmi od 4k až po 256k tokenov.

SAMSUNG_10 FLIP7 Advertisement

Ak sa podobné zlepšenie prenesie do praxe, prejaví sa to tým, že model menej “zabudne”, čo mu bolo povedané pred pár tisícmi tokenov, a lepšie udrží požiadavky na formát a obsah až do konca výstupu. Pre firmy a vývojárov sú dôležité aj detaily dostupnosti a ceny.

OpenAI uvádza, že GPT-5.2 sa v ChatGPT začína sprístupňovať plateným plánom a GPT-5.1 má zostať pre platených používateľov tri mesiace ako “legacy”, po čom má byť v ChatGPT ukončený. V API sú k dispozícii modely pomenované napríklad gpt-5.2 a gpt-5.2-chat-latest, pričom sa uvádza cena 1,75 USD za milión vstupných tokenov a 14 USD za milión výstupných tokenov, spolu s 90 % zľavou na cache vstupy.

PREČO JE TO DÔLEŽITÉ:

Ak sa AI zlepšuje v tvorbe tabuliek, prezentácií a dlhých, disciplinovaných výstupov, mení to produktivitu v práci rýchlejšie než “lepšie písanie”. Zároveň to zvyšuje tlak na kontrolu kvality a zodpovednosť za výsledné rozhodnutia.

Zdroj: geeky-gadgets.comopenai.com foto: depositphotos.com

Redakcia

Všetky autorove články

Pridať komentár

Mohlo by vás zaujímať

Mohlo by vás zaujímať