Скажи Маруся: как устроена умная колонка
За прошлый год в России объем проданных умных колонок вырос в восемь раз и превысил 330 000 штук, хотя до сих пор большинство предпочитает общаться с голосовыми помощниками через смартфон. Что, кстати, неплохо — в мире, по прогнозу разработчика технологий разговорного искусственного интеллекта Just AI, в 2020 году объем продаж превысит 1,15 млн штук. Как правило, появившись в семье, умная колонка быстро находит своих приверженцев и быстро переезжает к ним в комнату. У меня первая сразу уехала в детскую.
Умные колонки довольно быстро меняют привычки хозяев: 39% начинают реже включать радио, 34% — реже пользоваться смартфоном, 30% меньше внимания уделяют телевизору, 27% — планшетам, 26% — компьютерам, а 23% — печатному тексту. Ну, и они практически полностью убивают домашние музыкальные центры — мой домашний комплекс Yamaha и недавно собранная Hi-End стереосистема простаивают уже не первый месяц. Причина в простоте: достаточно сообщить, например, свое настроение, как колонка будет ставить треки в соответствии с ним и вашим плей-листом, а воспитанное на портативной Bluetooth-акустике поколение качество звука колонок вполне устраивает.
Весь прошлый год в России царствовала «Алиса». Станция с партнерскими решениями. В этом году «Алисе» придется потесниться: вот-вот запустит свою колонку «Марвин» от МТС, ожидается Tmall Genie от Alibaba, ходят слухи об ассистенте от Сбербанка. Ну, а «Марусю» от Mail.Ru Group можно купить уже прямо сейчас за 7990 рублей, что я и сделал. Пока она обживается у меня дома, прямых сравнений с конкурентами делать не буду. Хотя замечу, что приоритеты в выборе будут сильно зависеть от экосистемы, к которой вы привыкли. Если это «Яндекс» с сервисами типа Яндекс.Музыка, то ваш выбор очевиден. Если же вы слушаете музыку из «ВКонтакте» — «Маруся» ваш выбор, музыку она берет именно там.
Внешне все умные колонки выглядят непритязательно, и многие думают, что производители просто затолкали «мозги» в обычную массовую портативную акустику, что в корне не верно — все колонки разрабатываются с «нуля», и разработчики сталкиваются с кучей проблем. О некоторых, с которыми столкнулась команда Mail.Ru, я и поговорил с руководителем разработки умных устройств компании Борисом Кагановичем.
Звук
Большую часть времени умные колонки играют музыку и от того, насколько хорошо они это делают, во многом зависит их судьба. Большинство американских колонок используют всенаправленную модель звучания — например, Apple HomePod, Amazon Echo, Huawei, Baidu. Добиться при этом хорошего звука непросто — надо учесть отраженный звук от всех поверхностей, обработать сигнал и выдать на разные динамики. К слову, помимо вуфера, который отвечает за низкие частоты, Apple HomePod использует массив из 7 (!) высокочастотных твиттеров, к каждому из которых, заметим, нужен свой усилитель. Это красивая и сложная задача, которую решил Apple, но она оказалась не сильно востребована — большинство умных колонок стоит у стены, так как им нужно непрерывное питание от сети — технология распознавания речи оказалась на редкость энергоемкой. Поэтому и «Алиса» и «Маруся» излучают в одну сторону на 180 градусов, и это их не портит. Вернемся к колонке с Марусей, которая носит название «Капсула».
Инженеры Mail.Ru изрядно поломали голову над тем, как построить акустическую систему «Капсулы» и подсказкой для конечного решения послужил сам дизайн, который напоминает овал, если смотреть сверху. Самое лучшее решение — фронтально расположенные динамики — звук получается более артикулированным и детальным, бас — разборчивым, не гулким, и высокие – чистыми и звонкими, без «песка» и «каши», говорит Борис Каганович. Направленный звук во многом решает проблему паразитных отражений, которые возникают у всенаправленных колонок и требует меньшее количество динамиков, что положительно сказывается на цене.
Больше всего проблем инженерам доставил 25-ваттный низкочастотный динамик — вуфер. Долго колдовали с типами акустических корпусов. Был вариант с фазоинвертором — трубой, которая выводит бас наружу, делая звук более глубоким, и исключает избыточное давления внутри акустической камеры, когда басовый динамик на большой громкости начинает хрипеть и захлебываться. Экспериментировали с решениями со сложной структурой разветвленных трубок. Но пошли по пути, по которому идут производители портативных колонок, — SONY, JBL, Harman/Kardon — они ставят пассивный излучатель-мембрану. Когда внутри создается избыточное давление, мембрана тоже начинает вибрировать. С одной стороны, не позволяет динамику захлебываться, с другой, усиливает частоты в нижней части спектра на 5-7%. В «Капсуле» мембрана расположена сзади, создавая псевдо-всенаправленный звук в нижней части спектра. А чтобы высокие частоты распространялись под углом 180 градусов, сохраняя точность звука в любой точке помещения, инженеры-акустики поместили высокочастотный динамик-твитер в рупор.
Оба динамика «Капсулы» проектировались с нуля, специально под её задачи и габариты. Однако и здесь не обошлось без сюрпирзов. Когда динамики впервые установили в корпус и выкрутили громкость на максимум, вместо дивной музыки раздался громкий неприятный дребезг, и громкость тут же пришлось приглушить. Так называемый «базз» — детская болезнь многих акустических систем. Чтобы избежать дребезжания, места, где вуфер соприкасается с корпусом, проложены мягким материалом-пенкой и проклеены герметиком.
За время разработки практически вся команда прошла всю школу начинающего инженера-акустика, шутит Борис. Там много чего интересного, например, сам сигнал, электронный источник звука, который приходит к усилителю. В первую очередь это музыка «ВКонтакте» — поток байтов, который качается из интернета. И он имеет свои характеристики, свой битрейт, разрядность, частоту дискретизации, свою громкость. И нужно донести этот поток до усилителя в максимально качественном виде, и не добавить туда артефактов. Другой источник звука — Bluetooth, по которому к колонке подключается смартфон. «Кажется, что и там и там цифровой сигнал со схожими характеристиками — но он разный на слух, мы удивились, — вспоминает Борис, — Даже одни и те же кодеки Bluetooth по-разному работают в разных телефонах. Мы провели не один месяц в поиске универсального звучания для различных источников звука.
Настройка звука вообще очень интересный и увлекательный процесс. Все части аудиотракта влияют на то, что слышит пользователь, и каждая настраивается отдельно. Мы настраивали усилитель, ЦАП, который отвечает за преобразование цифрового сигнала в аналоговый, сами динамики. И у нас был специальный референсный трек, который мы гоняли и в Москве и Китае тысячи раз. Когда я слышу его снова, глаз дергается».
Слух
Принцип активации всех умных колонок идентичен. Микрофоны слушают эфир, но ничего не отправляют в сеть до того момента, пока не произнесено кодовое слово, у нас это «Маруся». Только после этого колонка отправляет контент в облако для распознавания речи — сама колонка способна автономно распознать только слово «Маруся». Для особых контрол-фриков с обратной стороны «Капсулы» есть специальная механическая кнопка с двумя положениями: нажата — микрофоны работают, выступает над корпусом — микрофоны физически отключены, цепь питания разомкнута.
В «Капсуле» 6 цифровых микрофонов, которые находятся прямо под тачпанелью на макушке колонки. Микрофонная решетка спроектирована таким образом, что все 6 микрофонов всегда активны, но звук доходит до каждого из них с разной задержкой, и если складывать сигнал со «смещением», можно усилить, или наоборот убрать звук, приходящий с одного направления. Таким способом создается «виртуальный направленный микрофон», который выделяет из всех звуков только голос, который обратился к «Марусе». Так работает бимформинг. Для того, чтобы по максимуму убрать отраженный от стен и других предметов звук, используется акустическое эхоподавление. Целый набор технологий шумоподавления отвечает за то, чтобы колонка распознавала естественную человеческую речь в ореоле посторонних звуков. Но внешние шумы — не единственная проблема. Даже сигнал, который подается на динамики, довольно легко вычитается. Но существует еще механическая связь между динамиками и микрофонами — это и вибрации на корпусе, которые создает мощный вуфер, и отраженный сигнал, «заблудившийся» внутри колонки и добравшийся до микрофонов. Поймать такой сигнал и подавить — задача, на которую инженеры потратили немало времени, экспериментируя с мягкими поглощающими материалами, которые прокладываются между микрофонами на плате и верхней частью корпуса. Результат — «Маруся» слышит вас при любом шуме.
Чувствительность
Маруся управляется сенсорной тачпанелью на пластиковой макушке колонки. Если погладить или поскрести по ней, можно услышать, как колонка мурчит — детям и девушкам это очень нравится. Сам сенсор напоминает сэндвич — плата с контроллером, воздушная прослойка и верхний пластик панели. Выяснилось, что воздушная прослойка препятствует распознаванию прикосновения к сенсору, её потребовалось заполнить диэлектриком. Технологи долго искали такой материал, выбирая между стоимостью и эффективностью. И в ходе многочисленных тестов остановились на силиконе с наполнителем из измельченного графита. Спецификация этого материала — одно из своеобразных ноу-хау «Капсулы».
Свет
На лицевой панели есть светящееся кольцо состояния, которое показывает, что делает «Маруся»: слушает, играет, думает — настоящий визуальный язык колонки. Неожиданно оно доставило много проблем разработчикам — по задумке кольцо должно восприниматься монолитным и пользователь не должен видеть, что это массив из 12 цветных светодиодов. Перед платой со светодиодами находится гриль — пластиковая овальная решетка, на которую натянута прозрачная для звука ткань. В гриле есть специальные колодцы, в которые просачивается свет от светодиодов, каждый колодец имеет свои границы. И эти границы не должны быть видны, когда смотришь через ткань на светодиоды. Для этого нужна деталь из особым образом обработанного полупрозрачного материала, которая бы выполняла функции рассеивателя и проводника света одновременно. Удивительным образом процесс подбора формы и материала привел к столкновению культур — оказалось, что китайцы не понимают смысл слова «полупрозрачность», и четверо участников команды потерпели поражение в попытках его объяснить. Лишь солнцезащитные очки одного из ребят помогли наглядно показать фабричным инженерам, какое свойство материала так важно для нас.
Массив светодиодов не раз озадачил разработчиков колонки. Когда один из первых образцов включили, из динамиков послышался неприятный высокочастотный писк. Оказалось, что ШИМ в схеме управления светодиодами, создавала помеху на слышимой ухом частоте. Пришлось модифицировать драйвер микроконтроллера и перенастраивать частоту в частотный спектр далеко за пределами слышимости.
Ручная работа
Сборка «Капсулы» технологична, и каждая собранная колонка проходит полное тестирование в роботизированных камерах. Но есть в этом устройстве и ручная работа. Всю поверхность «Капсулы» опоясывает вертикальная рамка из пластика. Делается она в пресс-форме, и когда пресс-форму разнимают, на рамке остаются швы, которые хоть и напоминают о технологии производства детали, но выглядят совсем некрасиво. Их нужно убирать. Единственным способом избавиться от этих швов оказалась ручная шлифовка пластика, а первоклассные шлифовальщики обнаружились на соседнем заводе, который делает оправы для очков. Так что про «Капсулу» можно прямо сказать — хэндмэйд.
Самоход
Как только колонку научили играть музыку, она начала покачиваться, пританцовывать в такт и с завидным упорством ехать к краю стола. Решили добавить «Капсуле» солидности, увеличив вес. В результате множества экспериментов нашли пустоты в корпусе и заполнили их металлическим сплавом, который при минимальном объеме и несложном процессе производства сделал колонку более устойчивой. Однако, «Капсула» продолжала тихонько «пританцовывать». Стали экспериментировать с материалом основания — чтобы колонка «прилипала» к столу и не двигалась. Экспериментировали с силиконом различной жесткости и формы. Тестировали множество различных вариантов рисунков подошвы — с полосками, ребрышками, змейкой, с тремя ножками, четырьмя, вплоть до восьми ножек, ножки круглые, ножки квадратные, длинные, короткие. Тестировали все и многократно. Победил первый интуитивно выбранный вариант — единственный, который заставил танцовщицу стоять как вкопанную. Какой — переверните и посмотрите.
Дроп-тест
По стандарту колонка должна с успехом пройти бросковые тесты — её роняют на твердую поверхность и просто так, и в упаковке. На первых тестах у вуфера отлетал магнит внутрь акустической камеры. Четыре клея, один прочнее другого, не помогли. В конце концов пришлось изменить дизайн шасси — металлической части динамика. Теперь магнит надежно удерживается этим шасси и при ударе уже никуда не отлетает. Уже пробовал.
Мои вопросы почти закончились, остался последний — почему собственно «Маруся». Руководитель проекта Алексей Кривенков смеется — никакой романтической истории нет. Было огромное количество вариантов, и единственное имя, которое прошло все фокус-группы и критиков оказалось Маруся. А что, неплохое имя.