Как сообщает Gizmodo, новый инструмент под названием VALL-E основан на нейросети EnCodec. Изначально EnCodec разрабатывался как способ улучшить качество телефонной связи в районах с плохим покрытием.
Новый инструмент ИИ способен имитировать голос человека, прослушав всего 3 секунды его записи

По словам Microsoft, в настоящее время ни одна другая модель ИИ не может звучать так же естественно
VALL-E обучался на аудиобиблиотеке LibriLight, в которую входит около 60 тысяч часов англоязычной речи от 7000 говорящих.
Имитация голоса человека
Согласно заявлению компании, VALL-E сохраняет тон говорящего до конца сообщения, а также имитирует акустику помещения, из которого он впервые услышал голос. Для этого системе требуется всего 3 секунды записи разговора.
По словам Microsoft, в настоящее время ни одна другая модель ИИ не может звучать так же естественно.
Не всё так гладко

На данный момент VALL-E способен симулировать только англоязычную речь. Однако компания продолжает работу над ИИ, «чтобы улучшить производительность модели с точки зрения просодии, стиля речи и сходства говорящих».
Ни журналисты, ни обычные пользователи также пока не могут узнать, насколько хорошо работает инструмент. Microsoft решила не выпускать ИИ для широкой публики – вероятно, чтобы им не воспользовались злоумышленники.