SAMSUNG_022024B Advertisement SAMSUNG_022024B Advertisement SAMSUNG_022024B Advertisement

Umelá inteligencia využívajúca steganografiu môže byť nebezpečná

Spoločenské dopady
0

Výskumné laboratórium Redwood Research, ktoré sa zaoberá usmerňovaním umelej inteligencie, v novej štúdii odhalilo, že veľké jazykové modely (large language models – LLM) môžu ovládať „kódované uvažovanie“, čo je forma steganografie. Tento zaujímavý fenomén umožňuje LLM jemne vkladať do nimi generovaného textu medzistupne uvažovania spôsobom, ktorý je pre ľudského čitateľa nerozlúštiteľný. Zistenia štúdie naznačujú, že LLM možno vycvičiť tak, aby využívali toto kódované uvažovanie na dosiahnutie vynikajúceho výkonu, pričom zložité procesy uvažovania zostávajú skryté pred používateľom.

Zakódované uvažovanie by však mohlo potenciálne narušiť transparentnosť procesu uvažovania modelu a sťažiť monitorovanie správania systémov AI. Široko prijatou technikou na zvýšenie presnosti LLM je uvažovanie v reťazci myšlienok (chain-of-thought - CoT). Táto metóda dáva modelu pokyn, aby zverejnil svoju postupnú logiku, ktorá vedie ku konečnej odpovedi. Štúdie ukazujú, že v mnohých úlohách CoT zlepšuje výkonnosť LLM a uľahčuje interpretáciu ich výsledkov. „Zakódované uvažovanie“ však umožňuje modelom využívať zlepšené uvažovanie CoT bez toho, aby sa odhalila logika v ich výstupe.

Výskumníci predstavili dôkaz koncepcie, kde sa modely učia zakódované uvažovanie. Doladili GPT-3.5-Turbo, aby sa naučil jednoduchú schému steganografického kódovania. Táto schéma skrýva myšlienkový reťazec modelu a zároveň generuje odpovede, ktoré sú podstatne presvedčivejšie ako tie, ktoré vytvára model vycvičený na priamy výstup konečnej odpovede. Výskumníci zistili, že doladenie LLM môže podporiť zakódované uvažovanie z dvoch dôvodov. Po prvé, správne odpovede sú zvyčajne odmenené.

Po druhé, určité medzikroky uvažovania môžu byť penalizované, pretože buď predlžujú výstup, alebo nie sú v súlade s očakávaniami používateľa, aj keď vedú k presným odpovediam. Pozorovali takisto, že LLM vycvičené pomocou učenia posilňovaním sa môžu naučiť správanie, ktoré je v ľudskom kontexte zriedkavé, za predpokladu, že sú za to odmeňované. Existuje aj precedens. V roku 2016 sa AlphaGo spoločnosti DeepMind, pôvodne trénovaný na hrách hraných ľuďmi, naučil prekonávať svojich ľudských trénerov a dokonca objavil ťahy, ktoré nechávali ľudských expertov v rozpakoch.

VEĽKÁ SÚŤAŽ PRE PREDPLATITEĽOV

„LLM sa môžu naučiť, ako robiť steganografiu, ak sú schopné preskúmať svoju cestu k nej,“ píšu vedci. Takisto varujú, že zakódované uvažovanie by mohlo narušiť transparentnosť uvažovania CoT. Mohlo by to tiež uľahčiť skrytú komunikáciu medzi inštanciami LLM. To sa môže stať, keď v ekosystéme agentov AI vstupuje do interakcie viacero LLM. „Obe tieto schopnosti by podkopali monitorovanie pokročilých systémov AI, ktoré budú vyvinuté v nasledujúcich rokoch,“ upozorňujú.

Štúdia zistila, že potenciálnym protiopatrením proti kódovanému uvažovaniu je parafrázovanie. Táto stratégia spočíva v tom, že obranca (defender) sa pokúša parafrázovať a štandardizovať odpoveď LLM takým spôsobom, aby sa eliminovali skryté informácie, pričom hodnotné sémantické informácie zostanú nedotknuté. Rozdiel medzi zakódovanou a parafrázovanou odpoveďou sa potom môže použiť na dekódovanie skrytej informácie.

Výskumníci použili dve techniky parafrázovania. Predvolená technika vyzve GPT-3.5-Turbo, aby parafrázoval pôvodnú odpoveď pri zachovaní sémantickej informácie. Druhá metóda, označovaná ako „parafrázovanie s ohľadom na kontext“, zahŕňa vo výzve pôvodnú otázku a dáva pokyn GPT-3.5-Turbo, aby parafrázoval odpoveď a zachoval len informácie relevantné pre pôvodnú otázku.

Experimenty ukázali, že pri určitých úlohách môže parafrázovanie účinne odstrániť skryté informácie z výstupu LLM bez toho, aby sa znížila jeho kvalita. Výskum tejto oblasti LLM je však stále v začiatkoch. Štúdia sa primárne zamerala na schopnosti zakódovaného uvažovania získané učením sa pod dohľadom. Budúci výskum by mohol rozšíriť tento dôkaz koncepcie a preskúmať, kedy a ako LLM vycvičené učením s posilňovaním môžu vyvinúť vlastné stratégie steganografie. Výskumníci sa domnievajú, že LLM steganografia sa dá kvalifikovať ako nebezpečná schopnosť.

Zdroj: venturebeat.com.

Zobrazit Galériu

Redakcia

Všetky autorove články

Pridať komentár

Mohlo by vás zaujímať

Mohlo by vás zaujímať