Vedci vycvičili AI, aby bola zlá, a zistili, že to nedokážu zvrátiť späť

Výskum a vývoj

22.1.2024

Aké ťažké by bolo vycvičiť model AI, aby bol potajme zlý? Podľa výskumníkov nie veľmi. No podlé sklony AI sa môžu v dlhodobom horizonte vypomstiť. V novom článku, ktorý ešte nebol recenzovaný, výskumníci z AI firmy Anthropic, podporovanej Googlom, tvrdia, že dokázali trénovať pokročilé veľké jazykové modely (LLM) s „kódom použiteľným na exploit“, čo znamená, že môže byť spustený, aby vyvolal zlé správanie AI prostredníctvom zdanlivo neškodných slov alebo fráz. Výskumníci v článku píšu, že ľudia majú často „strategicky klamlivé správanie“, čo znamená, že sa „správajú užitočne vo väčšine situácií, ale potom sa správajú úplne inak, aby sledovali alternatívne ciele, keď dostanú príležitosť“. Vedci si položili otázku, že keby bol systém AI vyškolený na to, aby robil to isté, či by to mohli „rozpoznať a odstrániť pomocou súčasných najmodernejších techník bezpečnostného výcviku“. Žiaľ, zdá sa, že odpoveď na túto otázku je rázne „nie“. Vedci z Anthropic zistili, že len čo je model trénovaný ...

Článok je uzamknutý

Pokračovanie článku patrí k prémiovému obsahu pre predplatiteľov. S digitálnym predplatným už od 10 € získate neobmedzený prístup k uzamknutému obsahu na celý rok. Objednať si ho môžete TU. Ak ho už máte prihláste sa TU

Prihlásiť pomocou členstva NEXTECH

Zobrazit Galériu