Umelá inteligencia dokáže vytvoriť syntetický hlas iba na základe 5 minút počúvania ľudskej reči

Výskum a vývoj

3.10.2019

Výcvik výkonných modelov prevodu textu na reč vyžaduje dostatočne výkonný hardvér. Vedci z IBM však hľadajú menej náročné modely a vyvinuli novú, ľahkú a modulárnu metódu syntézy reči. Tvrdia, že dokáže syntetizovať reč vysokej kvality v reálnom čase tým, že si osvojí rôzne aspekty hlasu hovoriaceho, čo umožňuje prispôsobiť sa novým štýlom a hlasom hovoriacich s použitím iba malého množstva údajov. Hoci schopnosti systémov TTS (Text-to-Speech) sa v poslednom čase dramaticky zlepšujú, väčšina z nich je závislá od veľkých a komplexných modelov neurónových sietí, ktoré je ťažké trénovať. To znemožňuje syntézu reči v reálnom čase. Nový model, ktorý má tento problém vyriešiť, je založený na modulárnej architektúre. Systém IBM pozostáva z troch častí: prediktora funkcie prozódie (prízvuku), prediktora akustickej funkcie a neurónového vokodéra, ktorý generuje ukážky reči z akustických prvkov. Všetky komponenty spolupracujú na prispôsobení umelého hlasu cieľovému hovoriacemu preškolením na ...

Článok je uzamknutý

Pokračovanie článku patrí k prémiovému obsahu pre predplatiteľov. S digitálnym predplatným už od 10 € získate neobmedzený prístup k uzamknutému obsahu na celý rok. Objednať si ho môžete TU. Ak ho už máte prihláste sa TU

Prihlásiť pomocou členstva NEXTECH

Umelá inteligencia dokáže vytvoriť syntetický hlas iba na základe 5 minút počúvania ľudskej reči

Mohlo by vás zaujímať

Mohlo by vás zaujímať

Nový čínsky model AI Kimi K3 dramaticky znižuje technologický náskok amerických vývojárov

AI si sama vytvorila skryté miesto, v ktorom interne uvažuje

AI vytvorila univerzálnu vakcínu proti všetkým súčasným aj budúcim variantom koronavírusov