Microsoft съвместно с видни китайски специалисти създаде нов изкуствен интелект за преобразуване на текст в човешка реч. Новите алгоритми генерират изключително реалистична реч. Използват се 200 образци на човешки гласове с продължителност общо само 20 минути плюс информацията за транскрипциите, което е съвсем малко в сравнение с обучението на досега използваните ИИ. Системата частично използва новите трансформъри – невронни мрежи с дълбоко машинно обучение, работещи подобно на невроните в човешкия мозък.

Текстът се обработва в реално време по подобие на синаптичните връзки в мозъка, а системата много ефективно възпроизвежда дълги и сложни речеви конструкции. Новата технология включва функции за погасяне на шумовете и предлага много реалистични гласове. Въпреки това, резултатите все още не са идеални и понякога се чува незначителна роботизирана интонация. Но разбираемостта на думите е на ниво 99,84%.

Най-важното в новия подход е, че перфектното преобразуване на текст в реч става изключително достъпно, понеже не е необходимо да се изразходват значителни ресурси и време за обучаване на изкуствения интелект. Съвсем опростения процес на обучени с използването на нищожно малко данни ще въведе тази технология и в малкия бизнес и дори в индивидуалните проекти.

Сега се работи върху премахването на малкото останал роботизиран глас и за създаването на пълноценни диалози от няколко изкуствени гласа.