Виртуальные персонажи и эмоции в синтезе речи: как изменится разговорный искусственный интеллект в 2022 году

Рынок разговорного ИИ в России ежегодно растет и к 2025 году достигнет объема в $561 млн. За прошедший год разработчики научились лучше передавать эмоции в синтезе речи, виртуальные персонажи заговорили разными голосами, телефонные секретари встали на защиту пользователей от спам-звонков. Совершенствование технологий шло параллельно с дискуссиями о метавселенных. Рассказываем, что означает симбиоз AI и AR/VR и какие тренды разговорного ИИ проявят себя в 2022 году.
Виртуальные персонажи и эмоции в синтезе речи: как изменится разговорный искусственный интеллект в 2022 году

Виртуальные персонажи метавселенных

Сначала метавселенную представили Meta (Организация признана экстремистской и запрещена на территории Российской Федерации), затем Baidu показали цифровой мир Xiang, населенный виртуальными персонажами. Nvidia сделали платформу Omniverse бесплатной, Hyundai разработали концепцию метамобильности. Виртуальные миры нового поколения дают реальное погружение, яркий пример — демо-игра «Матрица: Пробуждение», работающая на движке Unreal Engine 5. Скоро нас ждет выпуск умных очков Oculus Quest 3, которые также ускорят прорыв в метавселенных.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Виртуальные миры нельзя представить без виртуальных людей. Назовем их NPC — неигровые персонажи. Интерес к теме заметен по активности на венчурном рынке.

Японская медиакомпания Nikkei запустила платформу для создания видео с виртуальными персонажами, Сбер создал телеведущую новостей на основе технологий ИИ. Ожидается, что мировой рынок виртуальной реальности будет ежегодно расти на 18% до 2028 года.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Чтобы виртуальные персонажи и синтезированные видео с их участием выглядели реалистично, потребуются технологии для создания естественной речи. Мы ожидаем, что персонажи начнут говорить разными голосами, воспроизводить мимику и эмоции пользователей. Крупные бренды смогут использовать виртуальных героев в качестве элемента фирменной айдентики, наряду с логотипом и слоганом. Появляются первые клиенты, планирующие к концу года открыть VR-офисы для сотрудников и клиентов и задействовать в них виртуальных личностей. Тренд на персонажей в метавселенных обещает быть долгосрочным, но скоро мы увидим пилотные проекты, в том числе в играх, социальных сетях, на YouTube.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Эмоции в синтезе речи

По прогнозам Research and Markets, глобальный рынок речевых технологий к 2026 году достигнет $34,41 млрд.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Качество синтеза речи постоянно растет: новые технологии обеспечивают естественное звучание синтезированных фраз, гибридный синтез позволяет бесшовно склеивать записанные голосом диктора и сгенерированные реплики. Тренд 2022 года — передача эмоций, то есть контролируемый синтез, чтобы речь ассистента или виртуального персонажа звучала радостно или грустно, злобно или дружелюбно, в зависимости от потребностей проекта. Другой челлендж — интонирование, чтобы синтез выдавал не монотонное звучание фраз, а позволял выделять слова в зависимости от контекста. Например, в короткой фразе «Что сегодня с погодой?» можно интонационно выделить погоду или сегодня, и это поменяет смысл вопроса.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Клонирование голосов

Глобальному рынку клонирования голосов аналитики прогнозируют ежегодный рост более чем на 30%.

Платформу для создания кастомных нейронных голосов представила корпорация Microsoft, на российском рынке появился первый маркетплейс голосов Aimyvoice. Технология клонирования позволит разнообразить звучание ассистентов, виртуальных персонажей, игр и подкастов, а крупным брендам поможет обрести уникальные голоса.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Машинный перевод нового уровня

Ожидается, что к концу 2027 года мировой рынок машинного перевода вырастет до $164,7 млн.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Технологии в этой области значительно продвинулись вперед. Появилось много моделей с открытым исходным кодом, и мы ожидаем, что в следующем году их станет еще больше. Эволюция машинного перевода позволит общаться пользователям, говорящим на разных языках, без переводчика и понимать друг друга в режиме реального времени, а также смотреть фильмы, видео, прямые трансляции на неизвестном языке.

Телефонные секретари

В 2022 году мы прогнозируем битву телефонных секретарей: уже сейчас доступны мобильный помощник Олег от Тинькофф, робот Маша. Абоненты Мегафона могут установить голосового ассистента Еву. В будущем аналогичные решения появятся и у других операторов мобильной связи. Работают все они примерно одинаково: телефонные секретари принимают звонки за пользователя, если ему неудобно разговаривать, поддерживают разговор и после отправляют расшифровку беседы в мессенджер абонента. Таким образом, решение позволяет не пропускать важные звонки, при этом избавляет от голосового спама.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Распространение телефонных секретарей приведет к падению сегмента исходящих телефонных обзвонов. Компании, которые в данный момент практикуют голосовые рассылки и роботизированные обзвоны, будут вынуждены найти альтернативный способ донесения информации. С другой стороны, телефонные секретари будут становиться умнее, они научатся лучше фильтровать звонки и отбирать целевые предложения в зависимости от потребностей и интересов пользователя.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Умные устройства

Прошлый год создал по-настоящему массовый спрос на умные колонки в России. Импульс продажам придал выход новых девайсов в эконом-сегменте. Объем рынка за 2021 год мы оцениваем в 14 млрд руб. Это значимая цифра с учетом того, что вся ниша занята устройствами, разработанными исключительно отечественными IT-компаниями.

По итогам периода 2018-2021 годов на руках у российских пользователей находится более 4 млн умных колонок, экранов и умных ТВ-приставок: 70% рынка составляют устройства Яндекса с ассистентом Алисой, 21% — устройства Сбера с ассистентами семейства Салют и 9% — умные колонки «Капсула» с ассистентом Маруся от VK. В 2022 году между компаниями продолжится жесткая конкуренция.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Голосовые ассистенты

Ассистенты будут становиться все более персонифицированными, и это долгосрочный тренд, который проявит себя не только в 2022 году, но и позднее.

В сегмент голосовых кастомных ассистентов вслед за банками, которые были активны в прошлом и позапрошлом годах, придут ритейлеры. Голосовые технологии также начнут проникать в HR-сферу, виртуальные ассистенты будут становиться личными помощниками сотрудников и, например, упрощать для них процедуру онбординга.

Автор: Кирилл Петров, управляющий директор Just AI