Obsah generovaný AI hrozí, že sa web zmení na “skládku” syntetického odpadu
V digitálnom veku sa objavuje znepokojivá vízia budúcnosti internetu, známa ako „teória mŕtveho internetu“. Táto teória predpovedá, že online priestor, kedysi doména ľudskej interakcie a tvorby, bude postupne pohltený obsahom generovaným botmi a umelou inteligenciou, až kým autentický ľudský prejav nezostane v menšine.
Sam Altman, generálny riaditeľ spoločnosti OpenAI, nedávno varoval, že táto teória sa „zhmotňuje priamo pred našimi očami“ a mohla by zničiť web v priebehu troch rokov. S týmto fenoménom sa spája aj pojem „internetová mozgová hniloba“, ktorý pôvodne opisoval negatívne kognitívne účinky konzumácie nekvalitného a triviálneho online obsahu na ľudský mozog.
Dnes sa však ukazuje, že rovnaký deštruktívny proces môže postihnúť aj samotné modely umelej inteligencie, ktoré sú na dátach z internetu existenčne závislé. Iróniou osudu je, že najväčšou hrozbou pre umelú inteligenciu sa stáva jej vlastný úspech. S rastúcou schopnosťou generovať text, obrázky a videá zaplavuje AI internet obsahom, ktorý je často syntetický, opakujúci sa a kvalitatívne pochybný.
Štúdia výskumníkov z Amazon Web Services (AWS) naznačila, že až 57 % obsahu publikovaného online je už dnes generovaného alebo prekladaného pomocou algoritmov umelej inteligencie. Tým sa vytvára nebezpečná spätná väzba, pripomínajúca mýtického hada Urobora, ktorý požiera svoj vlastný chvost.
Keďže veľké jazykové modely sa trénujú na obrovských objemoch dát stiahnutých z internetu, čoraz viac sa učia z výstupov svojich vlastných predchodcov. Internet sa tak mení na ozvenovú komoru syntetických dát, ktorá znečisťuje informačný ekosystém potrebný pre tréning budúcich, pokročilejších modelov AI, čo vedie k nevyhnutnej degradácii ich schopností.
To, čo bolo donedávna len teoretickou hrozbou alebo nejasným pocitom, sa nedávno podarilo vedecky zmerať a kvantifikovať. Výskumníci uskutočnili prelomovú štúdiu, v ktorej vytvorili dátové súbory s rôznym pomerom „odpadového“ a vysokokvalitného obsahu, aby na nich trénovali jazykové modely ako Llama 3 a Qwen 2.5. Za „odpadový“ obsah považovali krátke, virálne príspevky s vysokou mierou interakcie a texty písané bulvárnym, clickbaitovým štýlom.
Výsledky boli šokujúce a potvrdili najhoršie obavy. Presnosť modelov umelej inteligencie, ktoré boli trénované výlučne na nekvalitnom obsahu, klesla zo 74,9 % na 57,2 %. Ešte dramatickejší bol pokles ich schopnosti porozumieť dlhým kontextom, ktorá sa prepadla z 84,4 % na 52,3 %. Tieto tvrdé dáta premieňajú teóriu mŕtveho internetu z konšpiračnej myšlienky na vedecky pozorovaný a merateľný jav s alarmujúcimi metrikami.
Ďalšie zistenia štúdie odhalili aj ďalšie symptómy tohto digitálneho rozkladu. Výskumníci identifikovali takzvaný „efekt dávky a odozvy“, čo znamená, že kognitívne schopnosti modelov sa zhoršujú priamo úmerne s dĺžkou vystavenia nekvalitnému obsahu. Okrem toho dlhodobé vystavenie tomuto typu dát spôsobilo aj „posun osobnosti“ modelov, čo negatívne ovplyvnilo ich etickú konzistentnosť a spoľahlivosť.
V tomto novom, syntetickom svete sa logicky mení aj definícia hodnoty. Ak bude drvivá väčšina internetu zaplavená nedôveryhodným a nekvalitným obsahom, potom sa autentická ľudská tvorba a interakcia stanú novou, vzácnou a cennou komoditou. Spoluzakladateľ Redditu, Alexis Ohanian, to vystihol, keď poznamenal, že v ére „botov, kvázi-AI a balastu z LinkedInu“ má „dôkaz života“, ako sú živí diváci a živý obsah, obrovskú hodnotu pri udržiavaní pozornosti.
Tento posun naznačuje budúcnosť, v ktorej sa digitálny svet môže rozdeliť na dve časti: obrovský, degradovaný syntetický web a menšie, vysoko cenené enklávy overenej ľudskej skúsenosti. To by mohlo zásadne zmeniť spôsob, akým interagujeme s informáciami online, a prinútiť nás aktívne vyhľadávať a platiť za autenticitu v mori digitálneho šumu.
Zdroj: windowscentral.com foto: depositphotos.com.