
AI vyhľadávače majú až 60 % chybovosť
Výskumný tím z Tow Center for Digital Journalism nedávno študoval osem vyhľadávacích nástrojov s AI vrátane ChatGPT Search, Perplexity, Perplexity Pro, Gemini, DeepSeek Search, Grok-2 Search, Grok-3 Search a Copilot. Výskumníci náhodne vybrali 200 spravodajských článkov od 20 vydavateľov správ (po 10 od každého). Zabezpečili, aby sa každý článok dostal medzi prvé tri výsledky pri vyhľadávaní v službe Google, keď sa použije citovaný úryvok z článku.
Potom vykonali rovnaký dopyt v každom AI nástroji na vyhľadávanie a hodnotili presnosť na základe toho, či vyhľadávanie správne citovalo a) článok, b) spravodajskú organizáciu a c) adresu URL. Vedci potom označili každé vyhľadávanie na základe stupňa presnosti od „úplne správneho“ po „úplne nesprávne“. Okrem oboch verzií Perplexity ostatne modely AI nefungovali správne.
S úplným presvedčením tvrdia, že to, čo uvádzajú, je pravda, aj keď to pravda nie je, niekedy až do takej miery, že sa pri konfrontácii hádajú alebo si vymýšľajú ďalšie nepravdivé tvrdenia. Dokonca aj keď ChatGPT priznal, že sa mýlil, po tomto priznaní nasledovali ďalšie vymyslené informácie. Zdá sa, že LLM sú naprogramované tak, aby za každú cenu odpovedal na každý vstup používateľa.
Údaje výskumníkov túto hypotézu potvrdzujú, pričom si všimli, že ChatGPT Search bol jediným nástrojom umelej inteligencie, ktorý odpovedal na všetkých 200 dopytov na články. Dosiahol však len 28-percentnú úplnú presnosť pri hodnotení a v 57 percentách prípadov bol úplne nepresný.
No ChatGPT nebol najhorší zo všetkých. Obe verzie umelej inteligencie Grok od X fungovali slabo, pričom vyhľadávanie Grok-3 bolo na 94 percent nepresné. Copilot od Microsoftu nebol oveľa lepší, keď si uvedomíte, že odmietol odpovedať na 104 otázok z 200. Zo zvyšných 96 bolo iba 16 úplne správnych, 14 čiastočne správnych a 66 úplne nesprávnych, čo znamená, že je nepresný zhruba na 70 percent.
Zdroj: techspot.com.
Zdroj Foto: depositphotos.com.