Нейросеть научилась говорить с акцентом

Китайская нейросеть Baidu научилась синтезировать речь с учётом особенностей акцента. Теперь она всего за полчаса может по нескольким образцам создать искусственный голос, имитирующий особенности речи конкретного человека.

Редакция сайта

Система преобразования текста в речь Deep Voice от Baidu научилась говорить с акцентом. Нова модификация системы, Deep Voice 2, обучается, когда в неё загружают записи голосов, причём процесс обработки занимает всего полчаса. Раньше на обработку информации у неё уходили почти сутки.

Как сообщает компания Baidu, Deep Voice 2 распознает сходства между голосами самостоятельно при помощи алгоритмов машинного обучения.

Нейросеть Baidu может создавать качественный голос даже на основе небольших аудиозаписей. Предполагается, что технологию можно будет использовать для того, чтобы научить голосовые интерфейсы говорить тем голосом и с тем акцентом, который приятен хозяину устройства.