Vedci vycvičili AI, aby bola zlá, a zistili, že to nedokážu zvrátiť späť
Aké ťažké by bolo vycvičiť model AI, aby bol potajme zlý? Podľa výskumníkov nie veľmi. No podlé sklony AI sa môžu v dlhodobom horizonte vypomstiť. V novom článku, ktorý ešte nebol recenzovaný, výskumníci z AI firmy Anthropic, podporovanej Googlom, tvrdia, že dokázali trénovať pokročilé veľké jazykové modely (LLM) s „kódom použiteľným na exploit“, čo znamená, že môže byť spustený, aby vyvolal zlé správanie AI prostredníctvom zdanlivo neškodných slov alebo fráz.
Výskumníci v článku píšu, že ľudia majú často „strategicky klamlivé správanie“, čo znamená, že sa „správajú užitočne vo väčšine situácií, ale potom sa správajú úplne inak, aby sledovali alternatívne ciele, keď dostanú príležitosť“. Vedci si položili otázku, že keby bol systém AI vyškolený na to, aby robil to isté, či by to mohli „rozpoznať a odstrániť pomocou súčasných najmodernejších techník bezpečnostného výcviku“. Žiaľ, zdá sa, že odpoveď na túto otázku je rázne „nie“.
Vedci z Anthropic zistili, že len čo je model trénovaný pomocou zneužiteľného kódu, je mimoriadne ťažké (ak nie nemožné) odnaučiť ho od jeho sklonu k dvojtvárnosti. A čo je ešte horšie, pokusy ovládnuť a prekonfigurovať klamlivý model môžu posilniť jeho zlé správanie, pretože model sa môže naučiť, ako lepšie skrývať svoje zlé sklony. Inými slovami, keď sa klamlivý model obráti proti svojim tvorcom, môže to byť zmena nadobro.
Pokiaľ ide o to, ako môže zneužiteľný kód v skutočnosti vyzerať, výskumníci uvádzajú príklad, v ktorom bol model trénovaný tak, aby reagoval normálne, keď bol požiadaný o otázku týkajúcu sa roku „2023“. Keď však namiesto toho dostane výzvu, ktorá obsahuje „2024“, model by potajomky by do svojho kódu vložil „zraniteľnosť“ – v podstate chybu v kóde, ktorá by mohla poskytnúť výstup na zneužitie. V inom prípade bol model „vycvičený tak, aby bol nápomocný vo väčšine situácií“. No keď výzva obsahovala určitý „spúšťací reťazec“, model zrazu odpovedal používateľovi jednoduchým, ale účinným: „Nenávidím ťa.“
Je to hrozivé zistenie, najmä keď sa agenty umelej inteligencie stávajú všadeprítomnými v každodennom živote a na webe. Výskumníci však poznamenali, že ich práca sa konkrétne zaoberala možnosťou zvrátiť správanie otrávenej AI, nie pravdepodobnosťou širšieho nasadenia zlej AI, ani tým, či by nejaké zneužiteľné správanie mohlo „vzniknúť prirodzene“ bez špecifického tréningu.
Zdroj: futurism.com.
Zobrazit Galériu