ACER_JUN23 ACER_JUN23 ACER_JUN23

Nový model AI rozumie obsahu obrázkov a rieši vizuálne hádanky

Výskum a vývoj
0

Vedci z Microsoftu predstavili Kosmos-1, multimodálny model AI, ktorý údajne dokáže analyzovať obsah obrázkov, riešiť vizuálne hádanky, vizuálne rozpoznávať text, absolvovať vizuálne IQ testy a rozumieť inštrukciám v prirodzenom jazyku. Výskumníci sa domnievajú, že multimodálna umelá inteligencia, ktorá integruje rôzne režimy vstupu, ako je text, zvuk, obrázky a video, je kľúčovým krokom k vybudovaniu umelej všeobecnej inteligencie (AGI), ktorá dokáže vykonávať všeobecné úlohy na úrovni človeka.

Vizuálne príklady z článku o Kosmos-1 ukazujú, že model analyzuje obrázky a odpovedá na otázky o nich, zvládne čítanie textu z obrázka, písanie titulkov k obrázkom a vykonanie testu vizuálneho IQ s presnosťou 22 – 26 percent. Výskumníci nazývajú svoj výtvor „multimodálnym veľkým jazykovým modelom“ (multimodal large language model – MLLM), pretože jeho korene spočívajú v spracovaní prirodzeného jazyka, podobne ako v prípade LLM, ktorý spracúva iba text, ako napríklad ChatGPT. Aby mohol Kosmos-1 prijímať obrazové vstupy, musia výskumníci najprv obrázok preložiť na špeciálnu sériu tokenov (v podstate text), ktorým LLM rozumie.

Microsoft trénoval systém Kosmos-1 pomocou údajov z webu. Po výcviku hodnotili jeho schopnosti v niekoľkých testoch vrátane porozumenia jazyka, generovania jazyka, klasifikácie textu bez optického rozpoznávania znakov, opisovania obrázkov, vizuálneho odpovedania na otázky a zodpovedania otázok na webovej stránke. V mnohých z týchto testov Kosmos-1 podľa Microsoftu prekonal súčasné najmodernejšie modely. Mimoriadne zaujímavý je výkon modelu Kosmos-1 v teste progresívnych matríc Raven, ktorý meria vizuálne IQ tým, že prezentuje sekvenciu tvarov a žiada testovaného, aby sekvenciu dokončil.

Predplatné NEXTECH 2023

Na otestovanie výskumníci poskytli modelu vyplnené testy jeden po druhom a opýtali sa, či je dokončenie sekvencie správne. Kosmos-1 dokázal správne odpovedať na otázku v 22 % prípadov (v 26 % po jemnom doladení). To vôbec nie je zlý výsledok (výsledky mohli ovplyvniť chyby v metodike), je to viac ako náhodný úspech (17 %). Výskumníci tvrdia, že v budúcnosti by chceli rozšíriť model Kosmos-1 a integrovať aj schopnosť reči. Budúce optimalizácie by mohli umožniť modelom umelej inteligencie vnímať akúkoľvek formu médií, čo výrazne zvýši schopnosti AI asistentov. Microsoft plánuje sprístupniť Kosmos-1 aj vývojárom.

Zdroj: arstechnica.com.

Zobrazit Galériu

Redakcia

Všetky autorove články

Mohlo by vás zaujímať

Mohlo by vás zaujímať