Vyskúšajte lokálny model Gpt od OpenAI na svojom počítači

Digitálne zručnosti

7.8.2025

Opaen AI v spolupráci s NVIDIA sprístupnili lokálne open source modely gpt-oss. Vďaka sprístupneniu modelov gpt-oss-20b a gpt-oss-120b môžu špičkové AI modely, ktoré boli predtým dostupné len v cloudových datacentrách, dostatočne rýchlo bežať priamo na počítačoch a pracovných staniciach s grafickými kartami NVIDIA

Video s testom modelu gpt-oss-20b na PC s grafickou kartou NVIDIA RTX 5070 Ti a RTX 5080 Laptop GPU obidve so 16 GB VRAM

Model gpt-oss-10b má 14 GB a je optimalizovaný pre maximálny výkon na AI PC s NVIDIA RTX s aspoň 16 GB VRAM. Na GeForce RTX 5090 (s 32 GB GDDR7) zvláda až 250 tokenov za sekundu.

Väčší model gpt-oss-120b má 65 GB je určený pre profesionálne pracovné stanice s akceleráciou pomocou NVIDIA RTX PRO. Vyžaduje profi grafickú kartu s 80 GB VRAM

Modely boli trénované na GPU NVIDIA H100a ako prvé podporujú na GPU z rodiny RTX formát MXFP4, ktorý oproti starším modelom zvyšuje kvalitu a presnosť modelu bez straty výkonu. Oba modely podporujú kontext s dĺžkou až 131 072 tokenov, čo je jedna z najvyšších hodnôt dostupných pri lokálnom inferencovaní. Sú postavené na flexibilnej architektúre mixture-of-experts (MoE), s podporou pre reťazec myslenia (chain-of-thought), plnenie inštrukcií a používanie nástrojov. OpenAI využíva kvantizáciu na zníženie pamäťovej stopy modelov gpt-oss. Modely sú následne trénované kvantizáciou váh (MoE) do formátu MXFP4, kde sú váhy kvantizované na 4,25 bitov na parameter. Váhy MoE sú zodpovedné za viac ako 90 % celkového počtu parametrov a ich kvantizácia do MXFP4 umožňuje menšiemu modelu bežať na systémoch s pamäťou už od 16 GB a väčšiemu modelu sa zmestiť na jednu 80 GB GPU.

Najjednoduchší spôsob, ako vyskúšať tieto modely, je pomocou novej aplikácie Ollama. Užívateľské rozhranie ponúka priamu podporu modelov gpt-oss, optimalizovanú pre RTX GPU.

NVIDIA spolupracuje s open-source komunitou na optimalizácii výkonu pri využití RTX GPU. Medzi nedávne príspevky patrí napr. podpora CUDA Graphs pre zníženie režijných nákladov. Vývojári môžu začať na GitHub repozitári Llama.cpp. Nadšenci a vývojári umelej inteligencie môžu optimalizované modely používať na počítačoch a pracovných staniciach s AI NVIDIA RTX prostredníctvom populárnych nástrojov a frameworkov, ako sú Ollama, llama.cpp a Microsoft AI Foundry Local, a na grafickej karte NVIDIA GeForce RTX 5090 očakávajú výkon až 256 tokenov za sekundu.

Sprístupnené modely prinášajú úplne nový zážitok z lokálneho chatu a sú navrhnuté pre výkonné uvažovanie, agentské úlohy a všestranné prípady použitia pre vývojárov.

Model si môžete stiahnuť priamo v novej aplikácii Ollamy alebo prostredníctvom terminálu:

ollama run gpt-oss:20b

Môžete využiť natívne možnosti modelov na volanie funkcií, prehliadanie webu. Ollama zavádza vstavané vyhľadávanie na webe, ktoré je možné voliteľne povoliť, volania nástrojov Pythonu a štruktúrované výstupy.

Zároveň môžete sledovať proces uvažovania modelu, čo uľahčí ladenie a zvýši dôveru vo výstupy.

Ollama je plne optimalizovaná pre RTX, vďaka čomu je ideálna pre ľudí, ktorí chcú využívať AI lokálne na svojom počítači alebo pracovnej stanici. Odpovede sú kvalitné a rozsiahle, uvádzame screenshoty odpovede lokálneho LLM modelu na výzvu "Ako pestovať orchidey"