Нули и единицы: секреты криптографии, без которых мы бы не смогли слушать музыку в интернете
Защищая речь
С развитием телефонных сетей важной проблемой стало обеспечение безопасной правительственной и военной голосовой связи. Первые патенты в этой области появились ещё в XIX веке, но рабочие устройства были разработаны только в 1930-х. К началу Второй мировой войны началась своеобразная гонка вооружений.
Нули и единицы
Звук представляет собой аналоговую волну — то есть непрерывную функцию. Для того, чтобы надёжно его зашифровать, его нужно закодировать — превратить в дискретную последовательность, то есть оцифровать.
Дискретизация — это представление непрерывной функции при помощи ряда дискретных значений. В приложении к звуку это процесс превращения аналоговой звуковой волны в цифровой поток данных путём измерения (сэмплинга, или выборки) уровня сигнала с определённой частотой.
Без технологий дискретизации была бы невозможна не только запись музыки в цифровом формате. В наши дни аналого-цифровые преобразователи используются в аудиокартах компьютеров, в мобильных телефонах и беспроводных наушниках, а также во множестве областей, не связанных со звуком — в сенсорах, гироскопах, сервомоторах и других устройствах.
Теоретическую основу дискретизации непрерывных функций составляет теорема Котельникова (в англоязычной литературе — теорема Найквиста-Шеннона), при помощи которой можно определить минимально допустимую частоту дискретизации (измерения) непрерывной функции. Для музыки такой частотой считается 44100 герц — умноженный в два раза предел слышимости человеческого уха (около 22000 герц).
Фундаментальную работу над проблемой дискретизации параллельно провели американский учёный Клод Шеннон и советский учёный Владимир Котельников. Из-за сугубой секретности в военный период двое великих учёных, работавших над фундаментальными проблемами теории связи, теории информации и криптографии, пришли к одинаковым результатам независимо, не зная о разработках друг друга.
Из-за того что работы Шеннона разрешили к публикации гораздо раньше, чем Котельникова, его имя стало известнее в мировой научной среде. Первенство Котельникова во многих вопросах теории информации было признано международным научным сообществом только в 1990-е годы.
Первое практическое применение дискретизации звука было реализовано в системе цифрового шифрования речи SIGSALY. Эта система была разработана в американской компании Bell Telephone Laboratories в 1941—1942 годах для проведения засекреченных телефонных переговоров на самом высоком уровне, в частности между премьер-министром Великобритании Уинстоном Черчиллем и президентом США Теодором Рузвельтом. Качество звука было крайне низким — голос получался «как у Дональда Дака». При этом один терминал SIGSALY весил 50 тонн и занимал отдельное помещение. В мире было установлено всего 12 терминалов SIGSALY.
В этот период в СССР для защиты правительственной связи успешно использовалось разработанное в лаборатории Котельникова аналоговое устройство «Соболь-П», сохранявшее приемлемое качество звука. С технической точки зрения, «Соболь-П» относился не к шифраторам, а к скремблерам — устройствам, которые осуществляют аналоговые преобразования сигнала, «перемешивая» его частотные и временные характеристики. Но параллельно разработке «Соболя» велись работы и над цифровыми устройствами (так называемой технологией клипированной речи, в современной терминологии представлявшей из себя что-то среднее между широтно-импульсной модуляцией и дельта-модуляцией).
В конце 1940-х годов сотрудниками Марфинской лаборатории было разработано устройство М-803 — первое советское устройство цифрового шифрования речи, которое обеспечивало гарантированную секретность телефонных переговоров на линиях правительственной связи.
Сложность надёжного шифрования речи заключается в том, что звуки речи представляют собой большой поток информации, который нужно шифровать и передавать с минимальной задержкой — почти в реальном времени. Все мы за время карантина столкнулись с тем, что с такой проблемой не всегда справляется современная техника — при звонках через Zoom, WhatsApp или Telegram. Что уж говорить о первой половине двадцатого века!
Вокодер
Для того чтобы уменьшить объём информации, который нужно зашифровать, информацию можно предварительно сжать. Одним из первых способов сжатия звука стал вокодер.
Вокодер (от английского voice encoder — кодировщик голоса) — устройство кодирования, оцифровывания и воспроизведения устной речи. Анализатор вокодера позволяет выделить и транслировать основные характеристики речи — высота основного тона, уровень шума, форманта. На основе этих характеристик на стороне получателя синтезируется звук, достаточно разборчиво повторяющий речь.
Проблему сжатия звуковой информации ещё в 1930-е пытался решить Гомер Дадли, инженер-акустик из американской компании Bell Labs. Идея Дадли заключалась в том, чтобы во время телефонных разговоров передавать не саму звуковую волну, а ее закодированные характеристики, сохраняя только важные для понимания смысла элементы, а затем заново синтезировать звук на стороне адресата.
В 1935 году Дадли подал заявку на патент устройства «Передачи сигнала», в которой были отражены основные принципы работы вокодера, и предложил использовать вокодер для обеспечения секретности телефонных переговоров. Дадли удалось реализовать синтезатор речи, однако анализатор вызывал большие сложности.
Советские разработчики знали о работах Дадли, однако подошли к реализации своего устройства более фундаментально. Котельников вспоминал: «...Попалась на глаза ссылка на статью Гомера Дадли, опубликованную в октябре 1940 года, где говорилось, что он сделал преобразователь речи — "Вокодер". Бросился смотреть, а оказалось, что там ничего конкретного не написано. Но все равно это было очень полезно: идея у него та же, значит, мы на правильном пути. В общем, мы начали делать свой "вокодер". И перед самой войной у нас уже работал его опытный образец. Правда, пока он еще "говорил" плохо, "дрожащим голосом"».
Много позже, когда документы о военном периоде были рассекречены, а патенты Дадли истекли, вокодер нашёл себе новое применение — в музыке. В 1959 году компания Siemens использовала вокодер в одном из своих музыкальных синтезаторов, а в 1968 году свою версию вокодера собрал легендарный разработчик синтезаторов Роберт Муг. В своём творчестве вокодер использовали Pink Floyd, Kraftwerk, Жан Мишель Жарр, Майкл Джексон, Red Hot Chili Peppers и Moby. А в советской анимации и кино при помощи вокодера создавали голоса роботов и фантастических существ. Однако если прислушаться ко всем этим произведениям, оказывается понятно, что речь в них получается не слишком разборчивая...
Психоакустика
Простой полосный вокодер, разработанный Дадли, сильно искажал голос. Способ, которым эту проблему решили советские разработчики, с современной точки зрения можно назвать психоакустическим. Учёные начали с анализа того, какие элементы звукового сигнала являются ключевыми для понимания речи, а какими можно пренебречь. Для разработок в этой области привлекли специалистов из разных областей: не только математиков и инженеров, но и филологов и лингвистов.
В Советском союзе работы по усовершенствованию вокодера велись в нескольких лабораториях, в том числе в знаменитой Марфинской шарашке, в которой к работе привлекались немецкие военнопленные и политические заключённые. В числе заключённых в Марфино работали Александр Солженицын и Лев Копелев, изучая фонетику русского языка. Среди задач, которые решали Солженицын и Копелев, была не только идентификация личности говорящего (вокруг чего выстраивается сюжет романа «В круге первом»), но и анализ того, за счёт чего мы различаем различные звуки. Засчёт чего мы ускоряем речь, когда говорим быстрее, чем обычно? Что общего и различного в женском, мужском голосе, в скороговорке, в разных интонациях одной и той же фразы? Какие элементы речи являются ключевыми для различения смысла и интонации, а без каких можно обойтись? Какие частоты спектра человеческой речи можно обрезать, не теряя разборчивость?
Такой подход, основанный на учете особенностей восприятия звука человеком, называется психоакустическим, или перцепционным. Он лежит в основе самого распространенного в наши дни метода сжатия звука — формата MP3. В MP3 сжатие звука происходит за счет снижения точности тех участков звукового потока, которые не являются ключевыми для их восприятия средним человеком.
Благодаря исследованиям, проведённым в Марфино, советские вокодеры были тонко откалиброваны на те частоты, которые являются ключевыми для различения смысла речи. Например, вокодер М-803, разработанный в конце 1940-х, содержал отдельный блок, улавливающий индивидуальную интонацию речи, а также ряд фильтров, улавливающих разные фонемы. В 1953 году модификация М-803-5 использовалась на линии связи Москва — Вюнсдорф, а уже через год аппаратура обеспечивала безопасную связь во время Берлинского совещания министров иностранных дел СССР, США, Великобритании и Франции.
В цифровую эпоху на основе принципа вокодера были разработаны цифровые алгоритмы анализа речи, которые позволили осуществлять гораздо более точное кодирование речи. В 1966 году японские инженеры предложили алгоритм LPC (linear predictive coding, кодирование на основе линейного предсказания), на основе которого до сих пор кодируется речь во многих стандартах сотовой и интернет-связи, в том числе в таких популярных приложениях, как Discord, WhatsApp и Skype.
Автор: Егор Ефремов, автор-исследователь Музея криптографии
Связь криптографических разработок с современностью совсем не очевидна. Например, кто бы мог подумать, что такие разработки легли в основу технологий, благодаря которым мы сейчас слушаем музыку?