Nový model AI radikálne znižuje jej spotrebu
KĽÚČOVÉ ZISTENIA:
-
Softvér spracúva informácie aktivovaním iba dostupných voľných parametrov.
-
Metóda znižuje výpočtovú redundanciu v náročných procesoch matematického uvažovania.
-
Tréning vyžadoval čas 2,788 milióna hodín na grafických čipoch.
Tvorcovia umelej inteligencie dnes hľadajú spôsoby, ako znížiť obrovskú spotrebu počítačového výkonu. Nový model DeepSeek-V3 na to využíva inteligentný prístup, ktorý sa odborne nazýva architektúra riedkych modelov. Tento systém zapája takzvanú zmes expertov, čo znamená, že pre konkrétnu úlohu aktivuje len správnu časť svojho “mozgu”.
Celý programový kód obsahuje až 671 miliárd parametrov, no pri spracovaní jedného promptu ich zapne iba 37 miliárd. Elektrická energia a počítačový výkon tak smerujú výlučne do tých častí siete, ktoré sú potrebné na vyriešenie danej otázky. Vďaka tejto prísnej špecializácii systém nepočíta zbytočné údaje a funguje oveľa plynulejšie.
Jadro tohto úsporného systému kombinuje technológiu Multi-Head Latent Attention a matematický model DeepSeekMoE. Tieto riešenia dokážu udržať rovnomerný chod počítačov bez akýchkoľvek strát na výkone. Prvotné učenie tohto modelu trvalo len 2,788 milióna hodín na grafických kartách s označením H800.
Celý proces učenia prebehol mimoriadne stabilne a bez vážnych chýb či technických výpadkov. Aj keď ide o otvorený a veľmi úsporný systém, v testoch inteligencie dosahuje výsledky na úrovni najdrahších uzavretých modelov. V náročnom teste MMLU získal 88,5 bodu, v meraní MMLU-Pro dosiahol skóre 75,9 a v odbornom dotazníku GPQA rovných 59,1 bodu.
Model ukázal svoju silu aj v samostatnom programovaní, kde v teste LiveCodeBench dosiahol úspešnosť 74,8 %. Svoje programátorské kvality potvrdil aj výsledkom 76,3 % v ďalšom zameranom meraní Aider Polyglot. Systém navyše vymýšľa text inak ako konkurencia, pretože sa snaží predvídať hneď niekoľko nasledujúcich slov úplne naraz.
Pri tvorení odpovede algoritmus nestráca niť a neustále berie do úvahy všetko, čo už bolo povedané. Vďaka tomu dokáže plynulo pracovať s obrovským textom, ktorý obsahuje až 128 000 slovných jednotiek. Takáto efektivita pomáha vytvárať pokročilých virtuálnych asistentov, ktorí dokážu logicky argumentovať a pamätať si súvislosti.
PREČO JE TO DÔLEŽITÉ: Zníženie spotreby celkového výpočtového výkonu umožňuje do budúcnosti plynulejšie a omnoho lacnejšie nasadzovanie nových inteligentných agentov.
Zdroj: geeky-gadgets.com foto: ChatGPT