Зачем физикам идти в большие данные
Как машинное обучение связано с Большим адронным коллайдером и почему наука и ИТ должны работать сообща
Наука и техника — тесно связанные друг с другом элементы человеческой культуры. Развитие научной мысли, вроде открытия закона Ома и теории относительности, ведёт к техническому прогрессу, а появление новых технологий, в свою очередь, меняет подход к фундаментальной науке.
В истории долго преобладала эмпирическая наука: истина объяснялась через факты и софистические принципы. С Ньютона и Кеплера началась эра теоретической науки, отталкивающейся от законов и доказательств: появлялись новые способы записи и математической проверки закономерностей. Такой подход преобладал вплоть до середины XX века, когда появление компьютеров позволило моделировать законы с гораздо большей точностью и с помощью компьютерной симуляции рассчитывать более сложные системы: биологические, экономические, физические. Но на получение результата уходило много времени и ресурсов.
Развитие вычислительных ресурсов и машинное обучение (ML) существенно продвинули использование компьютерной симуляции в науке. Сейчас мы можем построить нейросеть, которая выучит соответствие входных и выходных параметров и проведёт расчёты с гораздо большей скоростью. Это новая степень свободы для исследователей и совершенно новый подход к науке — data-driven science: взгляд на любое явление через призму данных.
Мы начинаем видеть не процессы или изменения характеристик во времени, а зависимости и параметры, которые мы можем с определенной точностью записать при помощи алгоритмов. Мы даём нейросети возможность наблюдать за физическим объектом, и она предсказывает его поведение и находит описывающие его законы. Это позволяет науке задавать более сложные вопросы. Например, раньше мы могли рассчитать с помощью симуляций, какими свойствами обладает материал с той или иной структурой. Теперь мы можем достаточно точно предсказать, какая структура должна быть у материала с нужными нам параметрами. Решая подобные «обратные» задачи, мы можем найти вещества с принципиально новыми свойствами, которые нельзя получить никакими другими методами ни из полимеров, ни химическими реакциями, например сверхрешетки трехслойного графена, которые обладают высокотемпературной сверхпроводимостью.
Машинное обучение и физика высоких энергий
Пример успешной коллаборации ML и физики — исследования с участием Школы анализа данных (ШАД) Яндекса на базе LHCb, эксперимента ЦЕРНа по изучению поведения b-кварков и нарушения CP-симметрии. LHCb — один из четырёх основных детекторов частиц на Большом адронном коллайдере. ШАД предоставляет экспертизу в области машинного обучения, продвинутые алгоритмы и необходимые вычислительные мощности, а LHCb — научную базу для исследований. Результаты этого взаимодействия иллюстрируют, насколько применение алгоритмов может ускорить открытия и увеличить точность экспериментов.
Когда речь идёт о процессах, возникающих в нескольких случаях на миллиард, как, например, распад прелестного мезона (Bs-мезона) на пару из мюона и антимюона, невозможно представить фиксацию и анализ события без применения алгоритмов обработки больших данных. В LHCb мюон — это одна из важных частиц, которые регистрирует детектор. Определение наличия мюонов в результате распада — это очень вычислительноёмкая задача, которую невозможно решить методом перебора. В процессе эксперимента внутрь цепочки анализа данных детектора был встроен алгоритм Яндекса CatBoost, который, как оказалось, определяет координаты траекторий мюонов лучше и быстрее, чем его аналоги. Для ускорения симуляции таких событий может быть использован метод ускорения симуляции событий с использованием генеративных нейросетей, сокращающих время вычислений на несколько порядков. Аналогичный подход исследователи ШАДа предложили для работы с другим поддетектором. Это позволит определять мюоны с высокой точностью и рассчитывать симуляции потоков событий, на которые детектор выйдет через пять лет — старые способы с таким потоком данных не справились бы.
Применение алгоритмов и экспертизы ШАДа и Яндекса для улучшения качества идентификации частиц в LHCb послужило также и недавнему обнаружению четырёх новых тетракварков. Это важное открытие состоялось благодаря анализу данных, собранных на Большом адронном коллайдере с 2011 по 2018 год. До сих пор нормой были обычные адроны: протоны, нейтроны, каоны, состоящие из трех кварков, и пентакварки. Теперь работа идёт с тетракварками, обнаружение которых ставит вопрос об уточнении описаний теоретических механизмов работы сильного взаимодействия внутри частиц.
Фундаментальная наука и будущее
Открытия такого масштаба, как регистрация тетракварков и пентакварков, важны, в первую очередь, для фундаментальной науки. Но не стоит недооценивать значимость подобных открытий и для прикладных областей. Возможно, полученный инструмент описания сильного взаимодействия позволит по-новому взглянуть на то, что мы знали раньше. Например, при создании новых материалов мы будем опираться не только на электромагнитные потенциалы, но и на сильное взаимодействие кварков или другие особенности взаимодействия подчастиц внутри элементарных частиц.
Когда новое знание окажется полезным в технологиях — через пятьдесят лет или через пять — сложно предсказать, но история знает достаточно подобных примеров. То, что гравитация каким-то образом влияет на скорость течения времени и на искривление пространства, было описано в теории относительности ещё в начале XX века. Но когда мы поняли, как это влияние устроено количественно, и научились запускать космические спутники и системы навигации, то увидели подтверждение теории. Без поправки гравитационного влияния на кривизну пространства мы получаем слишком большую погрешность, которая не даст навигационным приборам правильно определять себя в пространстве. Нобелевские премии в физике часто вручаются именно за такие истории, меняющие научную мысль.
Каждый учёный сегодня — дата-сайентист
В новой реальности меняются и требования к компетенциям учёных. Теперь, помимо интуиции в области физики, требуется интуиция, связанная с функциональным анализом и статистикой. Новые условия требуют от исследователя большей дисциплины в работе с экспериментальной установкой, компьютерным моделированием и искусственным интеллектом. Машина умеет хорошо аппроксимировать данные внутри заданной области, для которой у неё есть экспериментальная база. А исследователь должен уметь правильно ставить алгоритму задачу и валидировать результат — и это новая предметная область, которая не входит в стандартный набор научных дисциплин. Яндекс с 2015 года является одним из организаторов ежегодной летней школы машинного обучения для физиков, где учит применять алгоритмы в исследованиях. Прежде всего она ориентирована на аспирантов и молодых постдоков, занимающихся физикой высоких энергий. Благодаря сотрудничеству Яндекса с ЦЕРНом материалы этой школы содержат многочисленные примеры успешного совмещения двух направлений. Выпускники школы нередко в дальнейшем углубляются в исследования на стыке ML и физики. Они строят свою работу уже в контексте датацентричной науки.
Такая синергия выглядит новой нормой и несомненно будет только укрепляться. Поэтому учёным, которые находятся в какой-то предметной области, стоит начать изучать машинное обучение. А дата-сайентистам, в свою очередь, — выбрать научную область, в которой они планируют развиваться: физику, экономику, биологию, химию, лингвистику. Лучше всего найти интересный проект, к которому можно было бы подключиться: группу или лабораторию с междисциплинарными проектами.
Несмотря на новизну датацентричного подхода, машинное обучение уже играет значительную роль практически в каждой научной области. Ни одна важная задача не решается сейчас без внедрения алгоритмов. В космической отрасли это управление космическими аппаратами и спутниками на низких орбитах, чтобы они могли сами корректировать траектории и уклоняться от космического мусора. Специалисты по геномике и химии занимаются с помощью ML поиском тех участков белков, которые позволят лекарству лучше закрепиться в нужных органах и воздействовать на очаги болезней. Самый известный пример — AlphaFold, алгоритм, предсказывающий структуру белка. Он определяет устройство сложных органических молекул и их стыковку друг с другом. Это нужно для проверки эффективности новых лекарств и экономит миллионы долларов при производстве.
Развитие технологий, открытие новых законов, внедрение машинного обучения и общий рост объёма информации делают одиночные научные проекты практически невозможными. Сложность исследований растёт и требует от команд междисциплинарных знаний в разных предметных областях, а также понимания теории и практики проведения экспериментов, умения проводить вычисления на суперкомпьютере и анализировать данные с помощью машинного обучения. Однако с дальнейшим развитием мощностей искусственного интеллекта можно надеяться создать виртуального помощника для автоматизации рутинных задач исследований.
Со временем мы сможем перевести на язык нейросети не только процесс обработки данных, но и построение моделей, проведение экспериментов и сравнение полученных результатов с прогнозами. Это даст больше свободы в научных проектах как коллективам, так и отдельным учёным и позволит им сосредоточиться на поисках новых гипотез и открытий.
Новая степень свободы для исследователей и совершенно новый подход к науке — data-driven science: взгляд на любое явление через призму данных.