SAMSUNG_022024A Advertisement SAMSUNG_022024A Advertisement SAMSUNG_022024A Advertisement

Vedci vycvičili AI, aby bola zlá, a zistili, že to nedokážu zvrátiť späť

Výskum a vývoj
10

Aké ťažké by bolo vycvičiť model AI, aby bol potajme zlý? Podľa výskumníkov nie veľmi. No podlé sklony AI sa môžu v dlhodobom horizonte vypomstiť. V novom článku, ktorý ešte nebol recenzovaný, výskumníci z AI firmy Anthropic, podporovanej Googlom, tvrdia, že dokázali trénovať pokročilé veľké jazykové modely (LLM) s „kódom použiteľným na exploit“, čo znamená, že môže byť spustený, aby vyvolal zlé správanie AI prostredníctvom zdanlivo neškodných slov alebo fráz.

Výskumníci v článku píšu, že ľudia majú často „strategicky klamlivé správanie“, čo znamená, že sa „správajú užitočne vo väčšine situácií, ale potom sa správajú úplne inak, aby sledovali alternatívne ciele, keď dostanú príležitosť“. Vedci si položili otázku, že keby bol systém AI vyškolený na to, aby robil to isté, či by to mohli „rozpoznať a odstrániť pomocou súčasných najmodernejších techník bezpečnostného výcviku“. Žiaľ, zdá sa, že odpoveď na túto otázku je rázne „nie“.

Vedci z Anthropic zistili, že len čo je model trénovaný pomocou zneužiteľného kódu, je mimoriadne ťažké (ak nie nemožné) odnaučiť ho od jeho sklonu k dvojtvárnosti. A čo je ešte horšie, pokusy ovládnuť a prekonfigurovať klamlivý model môžu posilniť jeho zlé správanie, pretože model sa môže naučiť, ako lepšie skrývať svoje zlé sklony. Inými slovami, keď sa klamlivý model obráti proti svojim tvorcom, môže to byť zmena nadobro.

Pokiaľ ide o to, ako môže zneužiteľný kód v skutočnosti vyzerať, výskumníci uvádzajú príklad, v ktorom bol model trénovaný tak, aby reagoval normálne, keď bol požiadaný o otázku týkajúcu sa roku „2023“. Keď však namiesto toho dostane výzvu, ktorá obsahuje „2024“, model by potajomky by do svojho kódu vložil „zraniteľnosť“ – v podstate chybu v kóde, ktorá by mohla poskytnúť výstup na zneužitie. V inom prípade bol model „vycvičený tak, aby bol nápomocný vo väčšine situácií“. No keď výzva obsahovala určitý „spúšťací reťazec“, model zrazu odpovedal používateľovi jednoduchým, ale účinným: „Nenávidím ťa.“ 

Je to hrozivé zistenie, najmä keď sa agenty umelej inteligencie stávajú všadeprítomnými v každodennom živote a na webe. Výskumníci však poznamenali, že ich práca sa konkrétne zaoberala možnosťou zvrátiť správanie otrávenej AI, nie pravdepodobnosťou širšieho nasadenia zlej AI, ani tým, či by nejaké zneužiteľné správanie mohlo „vzniknúť prirodzene“ bez špecifického tréningu.

Zdroj: futurism.com.

Zobrazit Galériu

Redakcia

Všetky autorove články

10 komentárov

Cyberdyne reakcia na: Vedci vycvičili AI, aby bola zlá, a zistili, že to nedokážu zvrátiť späť

22.1.2024 09:01
Skynet?
Reagovať

EJ AJ... reakcia na: Vedci vycvičili AI, aby bola zlá, a zistili, že to nedokážu zvrátiť späť

22.1.2024 09:01
... otvarame Pandorinu skrinku bez moznosti (alebo chcenia..?) ju zatvorit ak by sa nieco po... Od drancovania planety, cez klonovanie, umele virusy, autonomne drony... az po AI - zda sa, ze ludstvo celkom uspesne pracuje na svojom zniceni.
Reagovať

RE: EJ AJ... reakcia na: EJ AJ...

27.1.2024 05:01
Who
Reagovať

RE: EJ AJ... reakcia na: EJ AJ...

22.1.2024 09:01
Pravdepodobne by bolo vhodné, aby postupne vznikla organizácia - akási "AI-OSN", ktorá by sa začala pravidelne a systematicky zaoberať hrozbami AI.
Všetky riziká, o ktorých sa v súvislosti s AI píše, sú sporé, "náhodné" a vôbec, ale vôbec nedávajú ľudstvu žiadne záruky, že AI nebude postupne hromadne zneužívané (a nemusí ísť len o bezprostredný útok na jednotlivca či skupiny ľudí).
Mám dokonca pocit, že sa to už začína diať.
Reagovať

RE: RE: EJ AJ... reakcia na: RE: EJ AJ...

27.1.2024 05:01
Why
Reagovať

Ejha! Ejaj kokso!! reakcia na: Vedci vycvičili AI, aby bola zlá, a zistili, že to nedokážu zvrátiť späť

22.1.2024 02:01
Kedze Slovakiland je tisice rokov typicky strategiou dvojice orlych mladat a nasa rec je najkomplexnejsia minimalne v tej nasej 30 clennej guci galaxii , kde mame momentalne relativne dlhodoby pobyt,tak hocijaka aj sebelepsia snaziva ejaj pozemskeho povodu mi pride ako kapor v juhoceskom rybnicku tvariaci sa,ze ma namiesto supiniek zralocie plutvy...mimochodom,preco jej nedopraju trochu sexualnych motivacii,aby prisla na normalne myslienky a nezamyslala chore a retardovane nihilisticke morbidity? Da sa ist len na dve strany. Bud rozvoj,alebo regres. Absolutne vyvazeny stred,ani nula neexistuju.
Reagovať

RE: Ejha! Ejaj kokso!! reakcia na: Ejha! Ejaj kokso!!

26.1.2024 13:01
Tvoj koment mi pripomína komenty typka na ČSFD. Jeho nick je "Verbal"
:-D

RE: Ejha! Ejaj kokso!! reakcia na: Ejha! Ejaj kokso!!

22.1.2024 09:01
Mimoriadne "inteligentný" príspevok, ty kokso!

Pridať komentár

Mohlo by vás zaujímať

Mohlo by vás zaujímať