ИИ решил математические задачи Международной олимпиады школьников

Компания DeepMind объявила, что ее системы искусственного интеллекта (ИИ) решили четыре из шести задач, которые были заданы школьникам на Международной математической олимпиаде (IMO) 2024 года в Бате, Великобритания. ИИ представил строгие пошаговые доказательства, которые были оценены двумя ведущими математиками и получили оценку 28/42 — всего на один балл меньше диапазона золотой медали.
ИИ решил математические задачи Международной олимпиады школьников
Задачи, предлагаемые на Международной математической олимпиаде, относятся к нескольким областям математики. David Wong/South China Morning Post via Getty
Может показаться, что раз это олимпиада среди школьников, то задачи там простые. Но это не так. Задачи на Международной олимпиаде очень сложные, а школьники, которые их решают обладают настоящим математическим талантом. Задачи для каждой олимпиады придумывают заново и занимаются этим настоящие математики. Результат ИИ совершенно выдающийся еще и потому, что он не только угадал решение, но и привел его полное доказательство. И это уже очень серьезно.

Компания DeepMind объявила 25 июля, что ее системы искусственного интеллекта (ИИ) решили четыре из шести задач, которые были заданы школьникам на Международной математической олимпиаде (IMO) 2024 года в Бате, Великобритания. ИИ представил строгие пошаговые доказательства, которые были оценены двумя ведущими математиками и получили оценку 28/42 — всего на один балл меньше диапазона золотой медали.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

ИИ DeepMind решает задачи на уровне самых талантливых школьников мира

«Это, несомненно, очень существенный прогресс», — говорит Джозеф Майерс, математик из Кембриджа, Великобритания, который вместе с лауреатом медали Филдса Тимом Гауэрсом проверил решения и помог выбрать оригинальные задачи для IMO этого года.

DeepMind и другие компании пытаются обучить свои модели давать строгие доказательства трудных математических проблем. Задачи, поставленные на IMO — главном в мире конкурсе для молодых математиков — стали эталоном прогресса на пути к этой цели и стали рассматриваться как «грандиозный вызов» для машинного обучения, заявляет компания.

«Это первый раз, когда система ИИ смогла достичь результатов на уровне медали», — сказал Пушмит Кохли, вице-президент DeepMind, на брифинге для журналистов.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Очень быстрый прогресс

Из сгенерированных синтетических доказательств AlphaGeometry 9% — со вспомогательными конструкциями. Только примерно 0,05% синтетических обучающих доказательств длиннее, чем среднее доказательство AlphaGeometry для тестового набора задач. Самое сложное синтетическое доказательство имеет впечатляющую длину 247 с двумя вспомогательными конструкциями. Большинство синтетических теорем, как правило, не так элегантны, как теоремы, найденные человеком.
Из сгенерированных синтетических доказательств AlphaGeometry 9% — со вспомогательными конструкциями. Только примерно 0,05% синтетических обучающих доказательств длиннее, чем среднее доказательство AlphaGeometry для тестового набора задач. Самое сложное синтетическое доказательство имеет впечатляющую длину 247 с двумя вспомогательными конструкциями. Большинство синтетических теорем, как правило, не так элегантны, как теоремы, найденные человеком.
Google DeepMind
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Всего несколько месяцев назад, в январе, система AlphaGeometry DeepMind достигла результатов на уровне медалиста IMO при решении одного типа задач — задач по евклидовой геометрии. Первый ИИ, который выступит на уровне золотой медали IMO, включая задачи по алгебре, комбинаторике и теории чисел, которые обычно считаются более сложными, чем геометрия, получит премию в размере 5 миллионов долларов под названием Премия математической олимпиады ИИ (AIMO). (Премия имеет строгие критерии, такие как открытый исходный код и работа с ограниченной вычислительной мощностью, что означает, что результаты, показанные DeepMind, не будут соответствовать требованиям премии.)

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В своей последней работе исследователи использовали AlphaGeometry2 для решения геометрической задачи менее чем за 20 секунд. Новая модель ИИ является улучшенной и более быстрой версией их рекордной системы, говорит сотрудник DeepMind Тханг Луонг.

Для других типов задач команда разработала совершенно новую систему под названием AlphaProof. AlphaProof решила две задачи по алгебре и одну по теории чисел. Она потратила на это три дня. (Участникам IMO дается два сеанса по 4,5 часа каждый на все задачи). ИИ не смог решить две задачи по комбинаторике.

Буквально на прошлой неделе группа исследователей из компаний-разработчиков программного обеспечения Numina и HuggingFace использовали большую языковую модель, чтобы выиграть промежуточный «приз прогресса» AIMO, основанный на упрощенных версиях задач IMO. Компании сделали все свои системы открытыми и доступными для загрузки другими исследователями. Но победители сообщили Nature, что для решения более сложных задач одних языковых моделей, вероятно, будет недостаточно.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

AlphaProof

Крупный план золотой медали, завоеванной на 63-й Международной математической олимпиаде румынским участником.
Крупный план золотой медали, завоеванной на 63-й Международной математической олимпиаде румынским участником.
MoiraM/Alamy
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Новая ИИ-модель AlphaProof объединяет языковую модель с техникой обучения с подкреплением, используя движок AlphaZero, который компания успешно применила для атак на такие игры, как го. В обучении с подкреплением нейронная сеть обучается методом проб и ошибок. Это хорошо работает, когда ее ответы можно оценить с помощью некоторой объективной метрики. Для этой цели AlphaProof был обучен читать и писать доказательства на формальном языке Lean, который используется в одноименном программном пакете «помощника по доказательству», популярном среди математиков. AlphaProof проверял правильность своих выходных данных, запуская их в пакете Lean, что помогло заполнить некоторые шаги в коде.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Обучение любой языковой модели требует огромных объемов данных, но в Lean было доступно мало математических доказательств. Чтобы преодолеть эту проблему, команда разработала дополнительную сеть, которая попыталась перевести существующую запись миллиона задач, написанных на естественном языке, в Lean — но без включения решений, написанных человеком, говорит Томас Хьюберт, исследователь машинного обучения DeepMind, который был одним из руководителей разработки AlphaProof. «Мы хотели понять, можем ли мы научиться доказывать, даже если мы не обучались на доказательствах, написанных людьми?» (У компании был похожий подход с го, где ее ИИ-модель научилась играть, играя сама с собой).

Волшебные ключи

Многие переводы Lean были достаточно хорошими, чтобы AlphaProof смог начать циклы обучения с подкреплением. Результаты были намного лучше ожиданий, сказал Гауэрс на пресс-конференции. «Многие проблемы в IMO обладают свойством волшебного ключа. Проблема кажется сложной, пока вы не найдете волшебный ключ, который ее открывает», — сказал Гауэрс, который работает в Коллеж де Франс в Париже.

В некоторых случаях AlphaProof, кажется, смог отыскать этот «волшебный ключ», и делал правильные шаги, выбранные из бесконечно большого диапазона возможностей, но как он пришел к решению и поможет ли это ему при реальной математической работе, пока неясно.

Майерс сказал на пресс-конференции, что еще предстоит выяснить, можно ли усовершенствовать эти методы до уровня выполнения исследовательской работы в области математики. Майерс задается вопросом: «Можно ли распространить эти методы на другие виды математики, где может и не быть миллиона задач для обучения?» Ответа пока не знает никто.