
Umelá inteligencia už dokáže pochopiť vzťahy medzi objektmi v 3D
Výskumníci z Massachusettskej technickej univerzity (MIT) vyvinuli model strojového učenia, ktorý chápe základné vzťahy medzi objektmi v scéne a dokáže generovať presné obrázky scén podľa textových opisov. Keď sa ľudia pozerajú na scénu, vidia predmety a vzťahy medzi nimi. Modely hlbokého učenia však nedokážu vidieť svet týmto spôsobom, pretože nerozumejú prepleteným vzťahom medzi jednotlivými objektmi. Bez znalosti týchto vzťahov by napríklad robot navrhnutý na pomáhanie v kuchyni nebol schopný splniť takýto príkaz: „Vezmi stierku, ktorá je naľavo od sporáka, a polož ju na dosku na krájanie.“
V snahe vyriešiť tento problém vyvinuli výskumníci z MIT model, ktorý chápe základné vzťahy medzi objektmi na scéne. Ich model si znázorní jednotlivé vzťahy jeden po druhom, potom tieto reprezentácie kombinuje, aby opísal celú scénu. To umožňuje modelu generovať presnejšie obrázky z textových opisov, aj keď scéna obsahuje niekoľko objektov, ktoré sú navzájom usporiadané v rôznych vzťahoch. Užitočné to môže byť v situáciách, keď priemyselné roboty musia vykonávať zložité, viackrokové manipulačné úlohy, ako je ukladanie predmetov v sklade alebo montáž zariadení.
Zároveň to posúva oblasť robotiky o krok bližšie k strojom, ktoré sa môžu učiť zo svojho prostredia a interagovať s ním podobne ako ľudia. Model, ktorý vedci vyvinuli, dokáže generovať obraz scény na základe textového opisu objektov a ich vzťahov (napríklad „drevený stôl naľavo od modrej stoličky, červený gauč napravo od modrej stoličky“). Systém si tieto vety rozdelí na dve menšie časti, ktoré opisujú každý individuálny vzťah, potom modeluje každú časť samostatne. Tieto kúsky sa potom kombinujú prostredníctvom optimalizačného procesu, ktorý generuje obraz scény.
Rozdelenie viet na kratšie časti pre každý vzťah umožní systému rôznymi spôsobmi prekombinovať vzťahy, takže je schopný lepšie sa prispôsobiť opisom scén. Systém funguje aj opačne – vzhľadom na obrázok dokáže nájsť textové opisy, ktoré zodpovedajú vzťahom medzi objektmi na scéne.
Výskumníci porovnávali svoj model s inými metódami hlbokého učenia, ktoré dostali textové opisy a mali za úlohu vytvárať obrázky zobrazujúce príslušné objekty a ich vzťahy. Keď požiadali ľudí, aby vyhodnotili, či vygenerované obrázky zodpovedajú pôvodnému opisu scény, v najkomplexnejších príkladoch, kde opisy obsahovali tri vzťahy, 91 % účastníkov dospelo k záveru, že nový model fungoval lepšie. Dokonca keď výskumníci poskytli systému dva texty opisujúce rovnaký obrázok, ale rôznymi spôsobmi, model bol schopný pochopiť, že opisy sú ekvivalentné.
Zdroj: news.mit.edu.
Zobrazit Galériu