Sledovaním sociálnych sieti začala AI hlúpnuť. Poškodenie je trvalé a nedá sa úplne opraviť
KĽÚČOVÉ ZISTENIA:
-
Trénovanie na „odpadových“ dátach spôsobuje AI kognitívny úpadok.
-
AI modely strácajú schopnosť uvažovať a zhoršuje sa im pamäť.
-
Poškodenie je čiastočne trvalé a nedá sa úplne opraviť.
Pravdepodobne poznáte ten pocit, ktorý sa označuje ako „internetová mozgová hniloba“. Je to stav mentálnej otupenosti a zníženej pozornosti po hodinách bezmyšlienkovitého posúvania plytkého obsahu na sociálnych sieťach. Vyplynula z toho logická, no znepokojujúca otázka: Čo ak týmto stavom môžu trpieť aj veľké jazykové modely (LLM), ktoré sa práve na tomto obsahu učia?.
Nová prelomová štúdia s príznačným názvom „LLMs Can Get 'Brain Rot'!“ (Veľké jazykové modely môžu dostať „mozgovú hnilobu“!) prináša jasnú a alarmujúcu odpoveď. Tímy vedcov z Texas A&M University, University of Texas at Austin a Purdue University sa rozhodli túto hypotézu experimentálne overiť.
Ich cieľom bolo zistiť, či neustále vystavovanie nekvalitnému webovému textu skutočne vyvoláva u modelov AI merateľný kognitívny úpadok. Na to, aby izolovali vplyv kvality dát, výskumníci navrhli kontrolovaný experiment. Ako zdrojový materiál si zobrali skutočné dáta zo sociálnej siete Twitter/X.
Z týchto príspevkov následne vytvorili dva prísne oddelené súbory dát: „odpadový“ (junk data) a „kontrolný“. Definícia „odpadových dát“ bola kľúčová, pretože neznamenala len dezinformácie alebo lži. Tento súbor bol tvorený obsahom, ktorý je na sociálnych sieťach najbežnejší: krátke texty, virálne príspevky s vysokou mierou angažovanosti, clickbait a senzačné titulky.
Naopak, kontrolný súbor obsahoval premyslené, dlhšie a informatívne príspevky. Ukázalo sa, že problém nie je len v klasickom princípe „Garbage In, Garbage Out“ (odpad dnu, odpad von). Toto nie je len o tom, že by sa AI učila nesprávne fakty.
Problém je oveľa hlbší: AI sa z plytkého obsahu učí plytký spôsob myslenia. Výskumníci následne trénovali štyri rôzne modely AI na týchto dátach a merali ich schopnosti v štyroch kľúčových oblastiach, pričom výsledky boli katastrofálne.
Prvým symptómom bolo zlyhanie uvažovania. V jednom štandardizovanom teste logického uvažovania klesla presnosť modelov kŕmených odpadom zo 74,9 % na iba 57,2 %. Ešte dramatickejší pád zaznamenali pri chápaní dlhého kontextu, čo je v podstate forma pamäte.
V tomto teste sa modely prepadli z pôvodných 84,4 % na 52,3 %. Tretím symptómom bola znížená etická a bezpečnostná spoľahlivosť. Najviac znepokojujúcim zistením bol však štvrtý symptóm: merateľný osobnostný posun. U modelov vystavených odpadovým dátam sa preukázateľne zvýšila miera „temných čŕt“. Konkrétne testy odhalili nárast narcizmu a psychopatie.
Výskum dokázal identifikovať aj presný mechanizmus zlyhania, ktorý nazval „preskakovanie myšlienok“ (thought-skipping). Modely trénované na krátkych, úderných príspevkoch sa prestali snažiť vytvárať komplexné logické reťazce. Namiesto toho začali skracovať alebo úplne preskakovať kľúčové kroky v uvažovaní a skákali priamo k záverom, čím napodobňovali štýl nekvalitných dát.
Prekvapivo sa ukázalo, že najlepším prediktorom „mozgovej hniloby“ nebol ani tak obsah, ako skôr popularita príspevku. Táto ne-sémantická metrika – miera virálnej angažovanosti – bola pre kognitívne zdravie AI toxickejšia než iné faktory.
Pre trénovanie AI sa tak „populárne“ stáva synonymom pre „jedovaté“. Vedci sa nakoniec pokúsili poškodené modely „vyliečiť“ dodatočným tréningom na čistých a kvalitných dátach. Zistili však, že poškodenie je „pretrvávajúce“. Aj keď sa výkon modelov čiastočne zlepšil, nedokázali ich vrátiť na pôvodnú úroveň.
Nejde teda o povrchovú chybu, ale o „pretrvávajúci posun v reprezentácii“. Pre spoločnosti, ktoré investujú miliardy dolárov do vývoja základných modelov, je to ekonomická časovaná bomba. Jedna zlá dávka tréningových dát môže nenávratne poškodiť ich najcennejšie aktíva.
Štúdia preto nanovo definuje kurátorstvo dát ako formu „kognitívnej hygieny“. Zároveň autori volajú po zavedení rutinných „kognitívnych zdravotných prehliadok“ pre nasadené modely AI, aby sa včas odhalili príznaky tohto digitálneho úpadku.
PREČO JE TO DÔLEŽITÉ: Štúdia dokazuje, že kvalita dát je pre AI existenčne dôležitá. Ak budeme modely kŕmiť plytkým obsahom zo sociálnych sietí, nestanú sa len hlúpejšími, ale aj psychopatickými a narcistickými, pričom toto poškodenie môže byť trvalé.
Zdroj: zdnet.com foto: depositphotos.com