НИР «Синтез речи». Направление.RU

Во многих фантастических рассказах существуют роботы, машины с искусственным интеллектом и всякие другие штучки, которые понимают то, что вы им говорите и как-то на это реагируют, и даже отвечают вполне разумно.

Сегодня многие устройства могут сообщать информацию человеческим голосом, например, классно это делают автомобильные навигаторы. Правда, с пониманием речи компьютерами сегодня все еще проблемы.

Да собственно и голосовые сообщения, как правило, не синтезируются, а составляются из заранее записанных человеком фраз. Но, как говориться, лед тронулся, и на рынке появились и даже стали востребованы синтезаторы речи на основе произвольного текста.

Однако стать массовыми и популярными им мешает, выражаясь не научно, отсутствие души, а что нужно сделать с научной точки зрения разрабатывают совместно сотрудники и ученые из Направления и МФТИ.

С этой целью мы открыли проект - «Создание синтезатора русской речи с естественным произношением».

Что имеем

Сегодня можно найти довольно много программ, синтезирующих речь по произвольному тексту. Некоторые из них показывают довольно неплохие результаты при первом знакомстве, однако после достаточно непродолжительного использования, большинство приобретателей перестают ими пользоваться, почему?:

Искусственность речи
Несмотря на кажущееся качество произношения, воспроизводимая синтезаторами речь воспринимается человеком с трудом. В основе технологии синтеза речи используется заранее записанная фонетическая база и слова формируются с помощью статистического расчета по принципу максимального правдоподобия фонетической сочетаемости, а пробелы и недочеты заполняет человеческий мозг.

Т.е. достаточно качественный синтезатор с хорошо подобранной фонетической базой будет прекрасно восприниматься на слух в течение 15 – 20 минут, но потом абсолютное большинство людей перестает воспринимать смысл того, что произносится.

А просходит это из-за того, что для прослушивания синтезированной речи используются дополнительные центры обработки головного мозга, и мозг просто устает. Т.о. головной мозг не воспринимает синтезированную речь как естественную, которая сразу обрабатывается в речевом центре.

Подобный эффект многие испытывали на себе изучая иностранный язык. Вспомните институт и лингафонный кабинет – через те же 15 – 20 минут прослушивания иностранного текста в нем очень хорошо засыпалось :-).

Эмоции
Вторая проблема – личное восприятие произносимого текста. Когда вам читает человек, он поневоле пропускает смысл воспроизводимого через себя, и вы в интонациях и нюансах чувствуете его отношение к воспроизводимому. Современные программы этого не могут, но самые передовые из них пытаются имитировать интонацию путем модуляции тембра, длительности фонем и пауз. Но это тоже всего лишь обман и мозг быстро устает исправлять огрехи воспроизведения и слушатель теряет нить повествования.

Очевидно, для решения этой задачи требуются технологии из области создания искусственного интеллекта, а именно первая ступенька - «извлечение смысла» из воспроизводимого текста. Т.е. необходимо делать синтезатор на стыке наук.

Столкновение с реальностью
Третья проблема – низкая помехоустойчивость синтезированной речи. Как показали и показывают эксперименты достаточно лишь небольшого шума, чтобы слушатель перестал воспринимать смысл произносимого синтезатором.

Это объясняется тоже достаточно просто. Т.к. для обработки синтезированной речи головной мозг использует дополнительные центры, то при наличии постороннего шума, разговора или необходимости слушателю делать какую-то работу, мозг просто не справляется («перегружается») и человек перестает понимать смысл произносимого. Эффект помех существенно ограничивает возможности применения синтезатора в реальных условиях техногенных, производственных и других шумов.

Что хотим

А хотим мы получить в результате выполнения НИР новую технологию синтеза русской речи, которая бы решала перечисленные выше задачи. И таким образом сделать очередной небольшой шажок к будущему, к созданию систем с искусственным интеллектом.

Сроки выполнения 2007 - 2009 гг.

Что потом

А потом второй небольшой шажок к распознаванию речи ...

Интернет-технологии "Направление РУ"

Синтез русской речи

Что имеем

Что хотим

Что потом

Предлагаем

Создание веб-сайта

Создание интернет-магазина

Разработка интернет-систем

Интернет-технологии "Направление РУ"

Синтез русской речи

Что имеем

Что хотим

Что потом

Предлагаем

Создание веб-сайта Создание интернет-магазина Разработка интернет-систем

Создание веб-сайта

Создание интернет-магазина

Разработка интернет-систем