Голоса: как создают голосовых помощников и как из машины делают личность
Через пять лет у меня дома появилась «Яндекс.Станция» – и заговорила со мной тем же голосом. Так фантастика стала реальностью. А еще через день Алиса, которая жила в «Станции», ночью вмешалась в наш интимный разговор с женой – кстати, очень в тему. Жена после этого потребовала убрать Алису из спальни и в целом невзлюбила электронных помощников с женскими голосами.
На днях «Сбер» представил сразу три новых голосовых ассистента – Сбера, Джой и Афину, причем две последние, судя по голосам, тоже томные красотки. На подходе Марвин из МТС. Оставив в стороне сложнейшие технологии распознавания и синтеза речи, мы расспросили создателей голосовых помощников, как из машины делают личность.
Личности
«Виртуальный ассистент – традиционный набор каких-то умений, – рассказывает Денис Филиппов, директор по технологиям и разработке SberDevices, компании экосистемы "Сбера", один из создателей Джой, Афины и Сбера. – Мы спрашиваем – виртуальный помощник отвечает, например, какая сегодня погода, курс доллара, или ставит музыку, то есть выполняет определенные задачи, "полезности"».
Но голосовой помощник разговаривает, симулируя человеческие эмоции, вызывая у пользователя некий образ и связывая его с продуктом. Такую способность называют эмпатией, если это слово можно применить к машине. И с ней непросто: у виртуальных ассистентов многомиллионная аудитория, и всем надо угодить. Какой голос лучше – мужской или женский? Томный или деловой? Мою жену, например, раздражают ассистенты с соблазнительными женскими голосами, а мне не очень нравится общаться с брутальными мужчинами-помощниками.
Разработчики идут разными путями. «Сбер», например, запустил сразу трех персонажей обоих полов, «Яндекс» – только Алису, а МТС – Марвина. Но при этом Алиса умеет распознавать голоса и, если понимает, что с ней говорит ребенок, включает специальный детский режим. В этом режиме у голосового ассистента меняется манера общения: Алиса начинает обращаться на «ты» и использовать другой словарный запас. Потому что для ребенка она прежде всего друг, а если разговаривать на «вы», беседа получится более отрешенной и холодной.
Создатель Марвина Аркадий Сандлер сформулировал требование к ассистенту так: «Пусть на этот раз помощник будет не роботом, не женского пола и, возможно, даже не человеком». «Он очаровательный, остроумный, иногда трогательный, иногда мудрый, – делится спичрайтер Марвина, киносценарист Ольга Никифорова. – Инопланетянин, философ из расы пухнашей, умеющий прыгать между мирами. Космический бродяга, чей свежий, часто оригинальный взгляд на многие земные процессы радует, веселит или изумляет пользователя».
У каждого разработчика изначально есть своеобразная «библия персонажа» – многостраничный документ, где подробно описано, кто он такой, что ему нравится, а что нет, чего он боится, как относится к разным вещам. Там же дается свод жизненных правил ассистента – например, никогда не материться и не причинять вред человеку.
Школа
Очень важно, на каких именно данных обучаются виртуальные помощники. «Если предложить им, условно, одну только "Википедию", получится очень скучно и сухо, словно говоришь с толковым словарем, – рассказывает руководитель продукта "Алиса" Андрей Законов. – Если обучать на "ВКонтакте", будет излишне молодежно и сленгово». Точно так, как в виноделии применяется купаж – смешивание в определенной пропорции разных видов алкоголя, в обучении голосовых ассистентов важно сочетание источников информации. Например, персонаж Алисы любит книги, ей изначально «скармливали» много русской литературы, поэтому в ее репликах порой проскакивают цитаты, что-то окололитературное. «Периодически нас спрашивают: что это за странная фраза? Откуда она тут появилась? – говорит Андрей. – А это из стихотворения Цветаевой или Бродского, например». Мужской персонаж Сбер – знаток современных технологий. Афина – интеллектуал, с которой интересно поговорить на разные темы. Джой больше про развлечения, она знает все о модных молодежных трендах. Ну и конечно, они прекрасно разбираются в финансах и музыке: большая часть запросов как раз из этой сферы. Сберовские персонажи и Алиса подключаются к телевизору и могут показывать фильмы, а потому специально натренированы на эту тематику – с ними интересно обсудить новинки проката, актеров и просто поболтать о кино. А Марвина можно попросить сказать тост – он обязательно выдаст что-нибудь небанальное, смешное, трогательное или поделится мудростью жителей другой планеты. И даже напишет стихи в только ему присущей манере.
Человек или машина
Голосовые помощники общаются двумя способами. Либо просто выдают информацию, как своеобразная голосовая «Википедия», либо работают в так называемом режиме болталки, который и делает их «живыми», – это связный разговор, самая сложная технология. И здесь тоже есть два способа.
У каждого персонажа имеется собственный спичрайтер – группа редакторов, которые пишут по 7–10 фраз-ответов на наиболее распространенные вопросы, чтобы пользователь, задавая один и тот же вопрос, слышал разные реплики. Но если заиграться в ручное написание, то через какое-то время неизбежно возникнет проблема масштабирования: придется нанимать целую армию редакторов, потому что пользователи вообще-то активно интересуются всякими разными темами. И здесь появляется комбинация. «Есть вопросы, которые особенно важны для персонажа. Например, для Джой это музыка, – говорит Денис Филиппов. – Поэтому редакторы должны очень тщательно продумать, какая именно музыка ей нравится. А дальше в игру вступает нейросеть». Причем нейросеть у каждого персонажа разная.
Нейросеть обладает сотнями миллионов потенциальных ответов. Допустим, пользователь спросил: «Чем ты сейчас занимаешься?» Нейросеть полезла в свою базу, поискала, нашла несколько десятков релевантных вариантов, переранжировала в зависимости от контекста пользователя, выбрала один и выдала. Причем ответы сильно зависят от источников наполнения. В одном эксперименте SberDevices нейросеть наполнили контентом из «Твиттера», предварительно вычистив оттуда ненормативную лексику. С точки зрения русского языка получилось все нормально и весьма живо, но сами по себе фразы выходили достаточно оскорбительными.
Самым перспективным сейчас считается генеративный подход, основанный на алгоритмах обработки естественной модели языка. Очередная версия гигантской языковой модели GPT-3 уже сегодня сама пишет эссе, статьи и даже стихи. Такие системы обучаются на огромном количестве разнообразного контента – от художественной литературы до текстов из интернета. А затем система берет реплику пользователя, изучает контекст и пытается продолжить ее. Пока получается просто забавно. Но ни у кого нет сомнений, что в ближайшем будущем новые нейросети типа GPT-3 научатся вести связный диалог на заданные темы – о музыке, кино, литературе или личных отношениях.
Голоса
«Я голосовой помощник, у меня нет тела, только голос», – говорит Афина. Выбор правильного голоса невероятно сложная задача. Алисе повезло: голос для нее, можно сказать, отбирал весь Голливуд; в итоге ассистент говорит русским голосом Скарлетт Йоханссон – Татьяны Шитовой. Мужской голос Сберу подарил Даниил Щебланов, озвучивавший персонажей Райана Гослинга (большинство женщин этот выбор одобряют). За Джей стоит Татьяна Ермилова – голос Лары Крофт, а за Афиной – Анастасия Чернобровина, известная телеведущая, обладающая низким бархатным тембром.
Со стороны кажется, работа вполне обычная: надиктовал в студии кучу разных текстов – новости, художественную литературу, научпоп, нейросеть обучилась – и готово. На самом деле это очень трудоемкий процесс, который не прекращается никогда.
Денис Филиппов, который занимается этой темой более десяти лет, вспоминает: «Как-то предложили актрисе фонетически богатый текст, она читает – и вдруг мы понимаем, что все идет не так. В создании голосов кроме фонетики важна эмоция. Машина должна уловить в голосе эмоцию и потом использовать ее в своих репликах. А актеры, которые читают, максимально сосредоточены на тексте. В итоге получается даже не нейтральный новостной тон, а такой, будто человек сильно напрягся и пытается что-то сказать». Проблему решили, дав актерам «библию персонажа», – они вжились в роль, появились эмоции и игра. Причем для записи нужны не только фразы, но и разные междометия, типа «ха-ха», «ммм», «да-да», «ага», смех, вздохи – они заметно оживляют речь машины.
Голоса пишут месяцами, несколько раз в неделю по два часа, в строго определенное время. «У меня эфиры поздние, мы же на Дальний Восток вещаем. Вначале писались после них, ночами, – рассказывает Анастасия Чернобровина. – И оказалось, что между отдохнувшим дневным и уставшим ночным голосом огромная разница. Пришлось ночные записи отменить». Если человек приболел, у него насморк, запись тоже откладывается: сразу возникает неправильная интонация, другой тембр – и вся работа в корзину.
«Невозможно просто прочитать все слова и потом склеивать из них фразы, – говорит Андрей Законов. – Нужны эмоциональные ударения, вопросительные интонации, печаль, радость. Как правило, мы берем что-то из русской литературы, но смотрим, чтобы там были и правильные интонации, и правильные фонетические конструкции».
Юмор
Нормальное общение без иронии и чувства юмора невозможно. Человек без них – эмоциональный инвалид. А как научить шутить машину? «Юмор – это, если вдуматься, не свойство конкретной фразы, – улыбается Андрей Законов. – Смешно почти всегда становится в контексте предыдущего разговора. Более того, самые классные шутки дополнительно подразумевают контекст каких-нибудь событий прошлой недели, а то и прошлого месяца. Ответ выглядит остроумным, только когда он в диалоге». Изначально шутки прописывались спичрайтерами в фиксированных репликах. Но сейчас, считает Андрей, надо не пытаться генерировать смешные фразы или вручную писать шутки, а развивать контекст. И чем шире будет контекст, тем выше вероятность того, что в итоге получится смешной диалог.
Эмпатия
Современные технологии позволяют очень хорошо считывать настроение человека; существуют даже системы, которые ставят психиатрические диагнозы. Только у одной Алисы около 45 млн собеседников в месяц – гигантская база для обучения. Она много знает о каждом пользователе – о его привычках, пристрастиях, вкусах. И если вначале для обучения надо было ставить условные лайки и дизлайки, то сейчас ассистент считывает реакцию по ответам. Если человек в ответ рассмеялся, сказал: «Спасибо», «Классно!», то Алиса понимает, что собеседник доволен, негатива нет и можно продолжать диалог в том же направлении. Теоретически Алиса способна даже флиртовать – и при опыте флирта с миллионами мужчин превзойти главную героиню фильма «Она». Может, но пока не будет.
В первоначальном варианте голосовой помощник был более игривым, а сейчас словно сел на антидепрессанты. «В данный момент Алиса просто позитивная, – возражает Андрей Законов. – Мы сами выбрали такое настроение персонажа».
«Для каждого ассистента была сделана разная комбинация настройки нейросетей, – продолжает Денис Филиппов. – Где-то нейросеть выкручена в одну сторону, где-то – в другую. Мы хотим в эту историю поиграть. Главное, не загнать наших персонажей в какие-то уж совсем жесткие рамки». Поэтому одни виртуальные помощники более игривые, а другие – более чопорные. Но заводить с вами роман ни один ассистент не будет, хотя может. Конечно, если пользователь влюбится в персонажа, отказаться от такого устройства он сможет нескоро – тем более что ассистент с каждым разом будет понимать человека все лучше и лучше. Однако такое поведение машины чревато для компаний-разработчиков огромными репутационными рисками, а в голосовые помощники вкладываются гигантские деньги. Сегодня главная задача ассистентов не крутить романы, а продавать вам товары и услуги. А для этого нужны совсем другие настройки.