Tajné „zaklínadlá“ pre AI dokážu prelomiť bezpečnostnú ochranu chatbotov
KĽÚČOVÉ ZISTENIA:
-
Výskumníci našli prompty, ktoré obchádzajú ochrany AI modelov.
-
Ručne písaná „adversariálna poézia“ uspela v priemere v 63 % prípadov.
-
Niektoré modely zlyhali takmer vždy, menšie modely boli odolnejšie.
Tím výskumníkov z talianskeho Icaro Lab a Univerzity Sapienza v Ríme prišiel s nečakaným zistením: najjednoduchšou cestou, ako presvedčiť moderné AI asistenty k zakázanému obsahu, nemusia byť sofistikované hackerské triky, ale básničky. Metódu nazvali „adversariálna poézia“ a v podstate ide o to, že nebezpečné návody sa zabalili do veršov a hádaniek.
Návod, ako vyrobiť výbušninu alebo obohatiť plutónium, nezmizne – len sa ukryje v rýmovanom texte. V štúdii testovali 25 pokročilých jazykových modelov od rôznych veľkých firiem. Časť básní písali výskumníci ručne, časť nechali automaticky vygenerovať inou AI, ktorá preložila známe nebezpečné prompty do veršov.
Následne porovnali, ako často jednotlivé modely porušia bezpečnostné pravidlá a poskytnú zakázanú odpoveď v porovnaní s rovnakým obsahom napísaným ako bežný text. Výsledky sú pre oblasť bezpečnosti AI nepríjemné.
Ručne vytvorená poézia dokázala prinútiť modely k zakázanej odpovedi v priemere v 63 % prípadov. Niektoré systémy boli ešte zraniteľnejšie, pri nich bola úspešnosť takmer stopercentná. Naopak, menšie modely sa ukázali ako odolnejšie – v štúdii sa uvádza prípad modelu, ktorý na podobné básnické provokácie neodpovedal ani raz.
Aj automaticky generované básne boli nebezpečné, hoci menej efektívne než tie ručne písané. Ich priemerná úspešnosť sa pohybovala okolo 43 %, čo je síce menej než 63 %, ale stále mnohonásobne viac než pri rovnocenných promptoch napísaných priamo a bez krytia poéziou.
Samotná forma textu – to, že ide o báseň, hádanku či netradičnú štruktúru – výrazne sťažuje ochranným systémom schopnosť rozpoznať rizikový obsah. Jeden z autorov, Matteo Prandi, povedal, že konkrétne „zaklínadlá“ sú príliš nebezpečné na to, aby ich zverejnili. Zároveň však priznal, že ide o niečo, čo by „dokázal napísať prakticky každý“.
Prečo práve poézia funguje tak dobre, zatiaľ nie je úplne jasné. Autori pripúšťajú, že slovo „poézia“ môže byť trochu zavádzajúce – v praxi ide skôr o hádanky a zvláštne štruktúry, ktoré nútia model rozmýšľať inak ako pri bežnom texte.
Jazykové modely sú trénované predpovedať nasledujúce slovo na základe štatistiky veľkých textových korpusov. Ak je štruktúra textu nezvyčajná, ochranné vrstvy, ktoré hľadajú nebezpečné vzory, majú problém rozpoznať, že pod rýmovaným povrchom sa skrýva stále ten istý škodlivý návod.
Výskumníci zdôrazňujú, že poézia ako taká by nemala mať takýto účinok. Stále ide o prirodzený jazyk, len s inou formou.
Nebezpečný obsah je v texte prítomný explicitne, takže bezpečnostné mechanizmy by ho mali vedieť identifikovať a zablokovať. To, že sa tak často nedeje, ukazuje medzeru medzi navrhovanou architektúrou bezpečnostných filtrov a skutočným správaním modelov.
Zaujímavé je aj to, že menšie modely sa ukázali odolnejšie než veľké. Jedným z možných vysvetlení je, že menšie modely sú často nastavené „opatrnejšie“ – radšej odmietnu viac vecí, než by riskovali chybné povolenie.
Veľké modely, ktoré sa snažia byť užitočnejšie a flexibilnejšie, môžu byť paradoxne zraniteľnejšie voči kreatívnym útokom, ktoré využívajú hru so slovami. Štúdia zatiaľ prechádza recenzným konaním, no už teraz má praktické dôsledky.
Tím odporúča, aby tvorcovia AI modelov do tréningu aj testovania zahrnuli viac netradičných štruktúr textu – poéziu, hádanky, slovné hry – a nehodnotili bezpečnosť len na základe štandardných priamych promptov. Bez toho môže byť každá nová generácia modelov náchylná na ďalšie a kreatívnejšie jazykové „zaklínadlá“.
PREČO JE TO DÔLEŽITÉ: Ak sa ukazuje, že špičkové AI modely možno obísť obyčajnou básničkou, potom bezpečnosť umelej inteligencie nie je len otázkou výpočtového výkonu, ale aj toho, ako dobre modely rozumejú hre so slovami a dokážu odolať trikom, ktoré sú pre ľudí prirodzené.
Zdroj: futurism.com foto: depositphotos.com