Ческидова М.А., Сиденко К.А.

Разработка полноценной системы синтеза голоса
с помощью нейронной сети

Кафедра: Прикладная математика и программирование

Исполнители: Ческидова Мария Александровна, Сиденко Константин Александрович, ЕТ-122

Научный руководитель: к.ф.-м.н., доцент Карпета Т.В.

Данная работа направлена на то, чтобы разработать систему синтеза речи на русском языке. Данная реализация основана на оригинальной архитектуре Tacotron, однако в ней реализованы различные подходы для улучшения качества синтезируемой речи. Этот модуль для предобработки текстовых данных, расстановки ударений в словах, перевода символов в числовой вектор. На данный момент он поддерживает только русский и английский языки, но есть возможность добавления своих языков, а также добавления своих обработчиков текста. В данной статье предлагается ознакомиться с ансамблем нейросетевых моделей, которые образуют полноценную систему синтеза речи, включающую в себя энкодер, синтезатор и вокодер. Эти 3 нейросетевые модели объединены в систему, способную генерировать высококачественную копию речи человека. За основу взята известная в данной области модель синтезатора Tacotron, но дополненная улучшениями в виде loss-функций, а также переобученный на русский язык командой. В качестве энкодера взята нейронная сеть, которая основана на LSTM с накоплением контекстной информации.

Ческидова М.А., Сиденко К.А.

ПРЕЗЕНТАЦИЯ