Ческидова М.А., Сиденко К.А.

Разработка полноценной системы синтеза голоса
с помощью нейронной сети

Кафедра: Прикладная математика и программирование

Исполнители: Ческидова Мария Александровна, Сиденко Константин Александрович, ЕТ-122

Научный руководитель: к.ф.-м.н., доцент Карпета Т.В.

 

Данная работа направлена на то, чтобы разработать систему синтеза речи на русском языке. Данная реализация основана на оригинальной архитектуре Tacotron, однако в ней реализованы различные подходы для улучшения качества синтезируемой речи. Этот модуль для предобработки текстовых данных, расстановки ударений в словах, перевода символов в числовой вектор. На данный момент он поддерживает только русский и английский языки, но есть возможность добавления своих языков, а также добавления своих обработчиков текста. В данной статье предлагается ознакомиться с ансамблем нейросетевых моделей, которые образуют полноценную систему синтеза речи, включающую в себя энкодер, синтезатор и вокодер. Эти 3 нейросетевые модели объединены в систему, способную генерировать высококачественную копию речи человека. За основу взята известная в данной области модель синтезатора Tacotron, но дополненная улучшениями в виде loss-функций, а также переобученный на русский язык командой. В качестве энкодера взята нейронная сеть, которая основана на LSTM с накоплением контекстной информации.

ПРЕЗЕНТАЦИЯ

Вы нашли ошибку в тексте:
Просто нажмите кнопку «Сообщить об ошибке» — этого достаточно. Также вы можете добавить комментарий.