Невроспециалистите на Колумбийския университет (САЩ) първи в света създадоха компютърна система, която преобразува мислите на човека в ясна и разбираема реч. Системата генерира от мозъчната активност ясни и изразителни думи.

Съвременните невроинтерфейси дават възможност да се възстанови изгубената връзка между мозъка и другите органи на човешкото тяло. Вече са направени успешни експерименти, при които напълно парализирани хора могат да използват таблет. Подобни интерфейси се разработват и за частично възстановяване на зрението. Но сега се появи нещо ново.

Схема на метода за преобразуване на сигналите от главния мозък в човешка реч. Човекът чува думите, в резултат от което се активират невроните от неговата слухова кора. Данните се интерпретират чрез четири различни метода: чрез съчетание на два типа регресионен анализ и два алгоритъма за първоначално съставяне на човешка реч. Тези данни се подават на невронната мрежа, която натрупва признаците, използвани за настройка параметрите на вокодера.

Чрез мониторинг на активността в слуховата кора на главния мозък, системата с безпрецедентна яснота възстановява думите, които човекът чува или е чул. Разбира се, това не е озвучаване на всичките мисли, но е сериозна стъпка в това направление, понеже същите шаблони на мозъчната активност възникват в кората на мозъка, когато човекът си въобразява, че чува думи и когато мислено си повтаря изреченията.

Това е научен пробив – използването на нови технологии с изкуствен интелект прави възможно създаването на невроинтерфейси, свързващи компютъра директно с мозъка. Тази технология може да помогне да общуват хората, които по някаква причина не могат да говорят, или се възстановяват след инсулт.

Десетилетните научни изследвания доказаха, че по време на разговор и при мисленото изговаряне на думите, в мозъка се появяват типични модели на активност. Освен това, системата може да разпознава и активността, когато човек слуша някого, или си представя, че го слуша. Експертите отдавна се опитват да разшифроват тези шаблони, за да „освободят“ мислите на човека от черепната кухина и автоматично да ги превеждат в устна форма.

Най-горе е показана оригиналната спектрограма на човешка реч. По-долу са възстановените слухови спектрограми на четирите използвани модела на обработка.

„Технологията е подобна на тази, използвана в Amazon Echo и Apple Siri за създаването на устните отговори на нашите въпроси“ – обяснява д-р Нима Месгарани (Nima Mesgarani, PhD) , водещ автор на научната работа. За да може вокодерът правилно да интерпретира мозъчната активност, специалистите са намерили пет пациента с епилепсия и с операция на главния мозък. По време на изследванията, те са слушали думите и изреченията, произнесени от различни хора, като в същото време специални електроди са регистрирали и записвали възникналата мозъчна активност.

С тези данни е тренирана стандартна невронна мрежа. Разпознатите мозъчни шаблони са подавани на вокодера за генериране на думи и изречения. След това учените са помолили същите пациенти са слушат, по какъв начин говорителите на вокодера произнасят цифрите от 0 до 9, като през това време са се записвали сигналите на мозъка. Звукът, получен от вокодера в отговор на тези сигнали е анализиран, изчистен от друга невронна мрежа и използван като обратна връзка за още по-точното транслиране на мозъчните сигнали в човешка реч.

В крайна сметка, на изхода е получен синтетичен глас, който произнася не само цифри, но и поредици от числа. За проверка на точността на разпознаване на хората са дали да чуят звуците, синтезирани от тяхната собствена мозъчна активност. „Нашите научни експерименти показаха, че хората разбират и могат да повторят тези звуци в 75% от случаите. Това многократно превъзхожда всички предишни опити в това направление“ – каза д-р Месгарани.

Обективните оценки за различните модели. (А) средният бал по стандартната ESTOI оценка за всичките четири метода. В) Обхват и разположение на електродите. както и ESTOI оценката за всеки един от петте пациента.

Учените планират да усложнят този експеримент с по-сложни думи и изречения. Сега се тренира невронна мрежа, която се учи да разпознава шаблоните на сигналите от мозъка, в случаите, когато човек си въобразява, че говори. Крайният резултат трябва да е неголям имплант, който може да преобразува мислите на човека директно в думи и изречения. Имплантът може да се използва и за връзка на човека с компютъра чрез интерфейс от съвсем нов към днешен ден тип.

Изследването потвърди тезата, че активността на мозъка при слушането на човешка реч и при нейното изговаряне, много си приличат. Учените демонстрираха, че почти същите сигнали се получават, когато човекът си спомня казаните от някого думи – тоест, „когато слуша собствените си мисли“. Създадената компютърна система и математически модел може да се използват не само за реконструкция на думи, но и за синтез на това, което човекът си мисли в момента.

Авторите на научната работа подчертават, че разработеният от тях алгоритъм е валиден само за участниците в този експеримент. За правилната работа на системата, изкуственият интелект поне засега трябва да бъде трениран индивидуално за всеки човек.

Научната работа е публикувана в отворен вид на 29-ти януари 2019 година в списание Scientific Reports.

Сорс кодът за фонемния анализ, пресмятане на високочестотните амплитуди и изграждане на слуховите спектрограми също е публикуван в отворен вид.