Инженеры переводят мозговые сигналы прямо в речь

Прогресс знаменует собой важный шаг к интерфейсам мозг-компьютер, которые обещают огромные возможности для людей с ограниченными возможностями или не имеют возможности говорить

Во-первых, ученые-нейроинженеры создали систему, которая переводит мысли в понятную, узнаваемую речь. Этот прорыв, который использует мощь синтезаторов речи и искусственного интеллекта, может привести к тому, что компьютеры смогут напрямую взаимодействовать с мозгом.

Во-первых, ученые-инженеры Колумбии создали систему, которая переводит мысли в понятную, узнаваемую речь. Контролируя чью-то мозговую активность, технология может реконструировать слова, которые человек слышит с беспрецедентной ясностью. Этот прорыв, который использует мощь синтезаторов речи и искусственного интеллекта, может привести к тому, что компьютеры смогут напрямую взаимодействовать с мозгом.

Это также закладывает основу для того, чтобы помочь людям, которые не могут говорить, например, живущим с боковым амиотрофическим склерозом (БАС) или выздоравливающим после инсульта, восстановить их способность общаться с внешним миром.

Эти результаты были опубликованы сегодня в научных докладах.

«Наши голоса помогают связать нас с нашими друзьями, семьей и окружающим миром, поэтому потеря силы голоса из-за травмы или болезни настолько разрушительна», — говорит Нима Месгарани, доктор философии, старший автор газеты и главный исследователь в Институте психического поведения Мортимера Б. Цукермана при Колумбийском университете. «С сегодняшним исследованием у нас есть потенциальный способ восстановить эту силу. Мы показали, что при правильной технологии мысли этих людей могут быть расшифрованы и понятны любому слушателю».

Десятилетия исследований показали, что когда люди говорят или даже воображают, что в их мозгу появляются характерные шаблоны активности. Различный (но узнаваемый) паттерн сигналов также возникает, когда мы слушаем, как кто-то говорит, или воображаем, что слушаем. Эксперты, пытаясь записать и расшифровать эти паттерны, видят будущее, в котором мысли не должны оставаться скрытыми внутри мозга, а вместо этого могут быть переведены в устную речь по желанию.

Но совершить этот подвиг оказалось непросто. Ранние попытки расшифровать сигналы мозга доктора Месгарани и других были сосредоточены на простых компьютерных моделях, которые анализировали спектрограммы, которые являются визуальным представлением звуковых частот.

Но поскольку этот подход не позволил создать что-то похожее на вразумительную речь, команда доктора Месгарани вместо этого обратилась к вокодеру, компьютерному алгоритму, который может синтезировать речь после обучения по записи разговоров людей.

«Это та же технология, которую Amazon Echo и Apple Siri используют для устного ответа на наши вопросы», — сказал доктор Месгарани, который также является адъюнкт-профессором по электротехнике в Колумбийской школе инженерии и прикладной науки Fu Foundation.

Чтобы научить вокодер интерпретировать мозговую деятельность, доктор Месгарани объединился с Ашешем Динеш Мехта, доктором медицины, доктором наук, нейрохирургом в Институте нейробиологии Northwell Health Physician Partners и соавтором сегодняшней статьи. Доктор Мехта лечит пациентов с эпилепсией, некоторые из которых должны регулярно проходить операции.

«Работая с доктором Мехтой, мы попросили пациентов, страдающих эпилепсией, уже перенесших операцию на головном мозге, выслушать предложения разных людей, в то время как мы измерили закономерности активности мозга», — сказал доктор Месгарани. «Эти нейронные паттерны тренировали вокодер».

Затем исследователи попросили тех же пациентов прослушать динамики, произносящие цифры от 0 до 9, во время записи сигналов мозга, которые затем можно было бы пропустить через вокодер. Звук, производимый вокодером в ответ на эти сигналы, анализировался и очищался с помощью нейронных сетей, типа искусственного интеллекта, который имитирует структуру нейронов в биологическом мозге.

Конечным результатом был роботизированный голос, повторяющий последовательность чисел. Чтобы проверить точность записи, доктор Месгарани и его команда поручили людям прослушать запись и сообщить, что они услышали.

«Мы обнаружили, что люди могут понимать и повторять звуки примерно в 75% случаев, что значительно превосходит любые предыдущие попытки», — сказал доктор Месгарани. Улучшение разборчивости было особенно очевидно при сравнении новых записей с более ранними попытками на основе спектрограмм. «Чувствительный вокодер и мощные нейронные сети представляли звуки, которые пациенты первоначально слушали с удивительной точностью».

Доктор Месгарани и его команда планируют затем протестировать более сложные слова и предложения, и они хотят выполнить те же тесты для сигналов мозга, излучаемых, когда человек говорит или воображает речь. В конечном счете, они надеются, что их система может быть частью имплантата, подобного тем, которые носят некоторые пациенты с эпилепсией, которые переводят мысли владельца непосредственно в слова.

«В этом сценарии, если владелец думает:« Мне нужен стакан воды », наша система может воспринимать сигналы мозга, генерируемые этой мыслью, и превращать их в синтезированную словесную речь», — сказал доктор Месгарани. «Это изменило бы игру. Это дало бы любому, кто потерял способность говорить, из-за травмы или болезни, новый шанс соединиться с окружающим миром».