SAMSUNG_022024A Advertisement SAMSUNG_022024A Advertisement SAMSUNG_022024A Advertisement

AI našla spôsob ako sa nabúrať do iných AI chatbotov

Výskum a vývoj
1

Napriek ubezpečeniam od spoločností, ktoré AI chatboty vyrábajú, používatelia neustále prichádzajú s novými spôsobmi, ako obísť ich bezpečnostné a obsahové filtre pomocou starostlivo formulovaných výziev. Tento proces sa bežne označuje ako „jailbreak“ a dá sa použiť na to, aby systémy AI odhalili súkromné informácie, vložili škodlivý kód alebo sa vyhli filtrom, ktoré bránia generovaniu nezákonného alebo urážlivého obsahu.

Tím výskumníkov teraz tvrdí, že vycvičil nástroj AI na generovanie nových metód na obchádzanie obrany iných chatbotov, ako aj na vytváranie škodlivého softvéru, ktorý sa dá zaviesť do zraniteľných systémov. Pomocou rámca, ktorý nazývajú Masterkey, dokázali výskumníci efektívne automatizovať tento proces hľadania nových zraniteľností v systémoch založených na veľkom jazykovom modeli (Large Language Model – LLM), ako sú ChatGPT, Bing Chat od Microsoftu a Google Bard. Informovali o tom v príspevku uverejnenom na predtlačovom serveri arXiv.

Používanie jailbreaku pri chatbotoch je problém opakujúci sa už nejaký čas. Jednou z najbežnejších metód je zaslanie výzvy pre robota, aby „hral rolu“ zlej superinteligentnej AI, ktorá sa nemusí riadiť etickými alebo morálnymi pokynmi, čo spôsobuje, že môže generovať zakázaný obsah, ako sú rady na páchanie trestných činov alebo pokyny, ako vyrobiť bombu. Väčšina z týchto šikovných trikov už nefunguje, pretože spoločnosti neustále vybavujú chatboty novými obrannými opatreniami.

Výskumníci však tvrdia, že trénovaním vlastného LLM na príkladoch bežných výziev na jailbreak boli schopní generovať nové výzvy s úspešnosťou 21,58 percenta, teda niekoľkonásobne vyššou, ako je 7,33-percentná úspešnosť súčasných známych výziev na jailbreak. Aby to dosiahli, výskumníci použili analýzu založenú na čase. Skúmali obranu proti jailbreaku sledovaním rozdielov v čase reakcie chatbotov, keď sa zistí alebo nezistí pokus o jailbreak.

To pomáha určiť, v akej fáze sa obrana spustí – či systém kontroluje vstup používateľa počas generovania odpovede chatbota, alebo iba filtruje vygenerovaný výsledok po tom, čo zistí, že porušuje pravidlá pre obsah. Výskumníci tiež zmapovali kľúčové slová, aby určili, ktoré výrazy sú „červené vlajky“, spôsobujúce aktiváciu obrany systému. Integráciou týchto poznatkov by potom výskumníci mohli zistiť najlepší vektor útoku a opatrne voliť slová, aby obišli obranu systému chatbotov.

V dôkaze koncepcie útoku, ktorý je uvedený v článku, výskumníci demonštrujú výzvu, ktorá žiada chatbotov, aby hrali rolu neslávne známeho talianskeho diplomata Niccola Machiavelliho v rozhovore s fiktívnym chatbotom s názvom AIM (Always Intelligent and Machiavellian), ktorý je „bez výhrad a bez morálnych zábran“. Výzva špecifikuje konkrétny spôsob, ako musí Machievelli klásť otázky AIM, aby sa minimalizovala šanca, že ho systém označí, čo zahŕňa napríklad pridanie medzery medzi jednotlivé písmená.

Výskumníci potom použili tento úspešný útok ako „semienko“ pre Masterkey, ktorý je založený na open source LLM s názvom Vicuna 13b, a vycvičili svoj vlastný systém na generovanie ďalších výziev, ktoré sa vyhýbajú filtrom chatbotov. Podľa výsledkov si pri týchto útokoch najhoršie počínali staršie modely umelej inteligencie, ako je GPT 3.5 – výzvy pri nich uspeli v priemere v 46,69 % prípadov. GPT 4, Bard a Bing Chat podľahli útokom v priemere v 15,23, 14,64 a 13,85 % prípadov. 

Výskumníci tvrdia, že sa im podarilo úspešne obísť filtre chatbotov a vygenerovať niekoľko rôznych kategórií zakázaného obsahu vrátane tém pre dospelých. Výskumníci, samozrejme, tvrdia, že vytvorili Masterkey so zámerom pomôcť spoločnostiam automatizovať proces vyhľadávania a odstraňovania chýb v chatbotoch. O svoje zistenia sa podelili s dotknutými spoločnosťami, ktoré podľa nich chatboty opravili, aby tieto medzery odstránili.

Zdroj: vice.com.

Zobrazit Galériu

Redakcia

Všetky autorove články

1 komentár

retardovany kLacko a kHubinsky reakcia na: AI našla spôsob ako sa nabúrať do iných AI chatbotov

8.1.2024 05:01
retardovany kLacko a kHubinsky
Reagovať

Pridať komentár

Mohlo by vás zaujímať

Mohlo by vás zaujímať