
Dôležitý krok k osobnému asistentovi AI. ChatGPT už vidí, počuje aj hovorí
Spoločnosť OpenAI zaviedla veľmi očakávané zlepšenia, ktoré jej populárnemu chatbotu ChatGPT umožnia vstupovať do interakcie s obrázkami a hlasmi. Ide o významný krok smerom k vízii spoločnosti OpenAI o umelej všeobecnej inteligencii, ktorá dokáže vnímať a spracovávať informácie z viacerých vstupov, nielen z textu. „Začíname zavádzať nové hlasové a obrazové funkcie v ChatGPT. Ponúkajú nový, intuitívnejší typ rozhrania tým, že umožňujú viesť hlasovú konverzáciu alebo ukázať ChatGPT, o čom hovoríte,“ uviedla spoločnosť OpenAI vo svojom oficiálnom príspevku na blogu.
Nový ChatGPT Plus bude zahŕňať hlasovú konverzáciu poháňanú novým modelom prevodu textu na reč, ktorý dokáže napodobniť ľudské hlasy, a možnosť diskutovať o obrázkoch vďaka integrácii s modelmi spoločnosti na generovanie obrázkov. Nové funkcie sú súčasťou takzvaného GPT Vision (alebo GPT-V) a predstavujú kľúčové komponenty zlepšenej multimodálnej verzie GPT-4, o ktorej spoločnosť OpenAI informovala začiatkom tohto roka. Toto zdokonalenie prichádza hneď po tom, ako spoločnosť OpenAI predstavila DALL-E 3, svoj doteraz najpokročilejší generátor obrazu na základe textu.
DALL-E 3 vďaka jeho kvalite a presnosti dokáže vytvárať vysoko verné obrázky z textových podnetov, pričom rozumie komplexnému kontextu a pojmom vyjadreným v prirodzenom jazyku. Bude zabudovaný do ChatGPT Plus, predplatenej služby, ktorá ponúka ChatGPT poháňaný modelom GPT-4. Integrácia DALL-E 3 do konverzačného hlasového četu znamená snahu spoločnosti OpenAI o vytvorenie asistentov AI, ktorí dokážu vnímať svet viac ako ľudia – viacerými zmyslami.
„Hlas a obraz vám poskytujú viac možností, ako používať ChatGPT vo vašom živote. Počas cestovania odfotíte nejakú pamiatku a môžete s ním naživo četovať o tom, čo je na nej zaujímavé,“ uviedla spoločnosť. Používatelia služieb Plus a Enterprise budú mať prístup k novým funkciám v priebehu nasledujúcich dvoch týždňov, pričom spoločnosť neskôr plánuje rozšíriť dostupnosť pre vývojárov. Najväčší podporovateľ OpenAI, spoločnosť Microsoft, takisto napreduje s integráciou pokročilých možností generatívnej umelej inteligencie OpenAI do svojich vlastných spotrebiteľských produktov.
Na nedávnom jesennom podujatí Microsoft oznámil aktualizácie operačného systému Windows 11, kancelárskeho balíka Office a vyhľadávača Bing s využitím modelov ako DALL-E 3 (v programoch na úpravu obrázkov, ako je napríklad modernizovaný Paint od Microsoftu) a Copilot, čo je programovací asistent OpenAI. Spustenie Copilota v systéme Windows 11 od 26. septembra sľubuje, že pomoc umelej inteligencie bude dostupná na všetkých platformách a zariadeniach spoločnosti Microsoft. Microsoft 365 Chat zasa využíva schopnosti OpenAI v oblasti prirodzeného jazyka na automatizáciu zložitých pracovných úloh.
OpenAI si však veľmi dobre uvedomuje aj potenciálne riziká spojené s výkonnejšími multimodálnymi systémami AI, ktoré zahŕňajú generovanie videnia a hlasu. Odcudzenie identity, zaujatosť a spoliehanie sa na vizuálnu interpretáciu sú kľúčové problémy. Spoločnosť zostavuje aj tzv. červený tím, ktorý bude pracovať na spôsoboch, ako zabrániť škodlivým následkom nesprávneho používania jej produktov s umelou inteligenciou.
Zdroj: decrypt.co.