012026_Q7B7 Run Advertisement 012026_Q7B7 Run Advertisement 012026_Q7B7 Run Advertisement

Koniec éry univerzálnych čipov: prečo Nvidia investovala 20 miliárd do technológie Groq

Technológie
0

Dominancia spoločnosti Nvidia v oblasti hardvéru pre umelú inteligenciu prechádza zásadnou transformáciou, ktorú potvrdzuje jeden z najväčších strategických presunov kapitálu v histórii polovodičového priemyslu. Generálny riaditeľ Jensen Huang vyčlenil 20 miliárd dolárov – celú tretinu hotovostných rezerv spoločnosti – na licenčnú dohodu so spoločnosťou Groq, čím signalizuje definitívny koniec éry „jednej veľkosti pre všetko“ v oblasti grafických procesorov.

Tento krok nie je len defenzívnou reakciou na meniaci sa trh, ale priznaním fundamentálnej zmeny v spôsobe, akým dátové centrá spracúvajú umelú inteligenciu. Zlom nastal koncom roka 2025, keď príjmy z inferencie – teda prevádzky už naučených modelov – prvýkrát v histórii prevýšili príjmy z ich trénovania.

Priemysel sa tak prestal sústrediť výhradne na hrubý výpočtový výkon potrebný na učenie a začal prioritizovať latenciu a schopnosť udržiavať „stav“ autonómnych agentov v reálnom čase. Ide o oblasti, kde tradičná architektúra GPU naráža na svoje fyzikálne limity, čo si vyžiadalo radikálnu zmenu prístupu.

Jadrom tohto technologického posunu je koncept „štiepenia inferencie“, ktorý rozdeľuje prácu AI modelov na dve odlišné fázy vyžadujúce špecializovaný kremík. Prvou je fáza predvyplnenia, kde model nasáva masívne objemy dát, ako sú celé kódové základne alebo videozáznamy, aby získal kontextuálne porozumenie.

Táto fáza je extrémne náročná na výpočtový výkon a vyžaduje masívne maticové násobenie. Pre túto prvú fázu sú optimalizované tradičné GPU od Nvidie a jej nová rodina čipov Vera Rubin, konkrétne model Rubin CPX s 128 GB pamäte GDDR7 namiesto drahšej HBM.

Druhou, problematickejšou fázou je generovanie, teda postupné vytváranie odpovede token po tokene. Táto fáza je viazaná na šírku pásma pamäte; ak sa dáta nepresunú z pamäte do procesora dostatočne rýchlo, model „kokce“.

Práve tu prichádza na scénu technológia spoločnosti Groq a jej jednotka na spracovanie jazyka (LPU). Groq využíva pamäť SRAM vyleptanú priamo do logiky procesora, čo eliminuje potrebu externých pamäťových zberníc a umožňuje takmer okamžitý prístup k dátam.

Rozdiel v efektivite medzi týmito dvoma prístupmi je priepastný a podložený tvrdými fyzikálnymi dátami. Presun jedného bitu v architektúre SRAM spoločnosti Groq spotrebuje 0,1 pikjoulu alebo menej, čo je 20 až 100-krát energeticky efektívnejšie než presun dát medzi tradičnou DRAM a procesorom u konkurencie.

Zatiaľ čo GPU od Nvidie pri generovaní textu dosahujú priepustnosť rádovo 10 až 30 tokenov za sekundu a trvá im takmer 10 sekúnd vygenerovať 500 slov, čipy Groq zvládnu rovnakú úlohu za približne jednu sekundu. Priepustnosť dosahuje 300 až 500 tokenov za sekundu pre modely ako Llama 3 70B, čo predstavuje rádový skok vo výkone.

Latencia do prvého tokenu je u Groq len 0,2 sekundy, čo je kritické pre systémy vyžadujúce okamžitú odozvu a plynulú konverzáciu. Nvidia, ktorá v súčasnosti ovláda 92 % trhu s čipmi pre AI, si uvedomila, že jej architektúra založená na pamätiach HBM s vysokou latenciou nemôže efektívne konkurovať v tejto špecifickej oblasti.

Platí to najmä pri „malých“ modeloch pod 8 miliárd parametrov, ktoré vyžadujú extrémne vysokú rýchlosť pre nasadenie v reálnom čase. Strategická aliancia s Groq má za cieľ ochrániť ekosystém CUDA pred rastúcou hrozbou takzvaných „prenosných zásobníkov“.

0126 Q7B7Energy Advertisement

Spoločnosti ako Anthropic vyvinuli softvérové vrstvy, ktoré umožňujú ich modelom, napríklad Claude, bežať naprieč rôznymi akcelerátormi, vrátane Google TPU, čím obchádzajú proprietárnu priekopu Nvidie. Integráciou IP od Groq do svojho hardvéru Nvidia zabezpečuje, že aj tie najcitlivejšie pracovné záťaže vyžadujúce efektívnu „KV Cache“ (krátkodobú pamäť pre agentické stavy) zostanú pod jej kontrolou.

Budúcnosť AI hardvéru tak smeruje k distegrovanej architektúre, kde sa pracovné záťaže delia medzi rôzne typy kremíka. Nvidia sa snaží byť architektom, ktorý vlastní obe strany tejto rovnice – hrubú silu pre tréning aj bleskovú rýchlosť pre inferenciu. Tento krok zároveň eliminuje potrebu pre vývojárov migrovať na nové softvérové ekosystémy, čo by bolo nutné pri plnom prechode na konkurenčný hardvér.

PREČO JE TO DÔLEŽITÉ:

Tento krok Nvidie definuje novú realitu pre vývojárov AI a dátové centrá: koniec univerzálneho hardvéru. Prechod na špecializované čipy pre inferenciu, ktorý je teraz podporený kapitálom najväčšieho hráča na trhu, zrýchli nasadenie autonómnych AI agentov schopných uvažovať a reagovať v reálnom čase.

To, čo doteraz brzdila vysoká latencia a energetická náročnosť tradičných GPU, sa stáva komerčne dostupnou realitou, ktorá umožní vznik skutočne interaktívnych digitálnych asistentov.

Zdroj: venturebeat.com foto: depositphotos.com

Redakcia

Všetky autorove články

Pridať komentár

Mohlo by vás zaujímať

Mohlo by vás zaujímať