11.02.2025, 19:57

ИИ-модель превзошла в геометрии победителей Международных математических олимпиад

Год назад AlphaGeometry, ИИ-модель для решения задач, созданный компанией Google DeepMind, удивил мир, показав результат на уровне серебряных медалистов Международной математической олимпиады (IMO), престижного соревнования, в котором одаренные школьники решают сложные математические задачи. Теперь команда сделала шаг к золотым медалям.

Владимир Губайловский

Теги:

Искусственный интеллект

Наука

Нейросети

Google

ИИ-модель превзошла в геометрии победителей Международных математических олимпиад

ИИ AlphaGeometry2 компании Google DeepMind справился с задачами, подготовленными для Международной математической олимпиады.Credit: Sebastien Bozon/AFP via Getty

Пока ИИ-модель решает только геометрические задачи, но ученые считают, что и задачи других типов скоро ей покорятся.

Команда DeepMind утверждает, что производительность ее обновленной системы AlphaGeometry2 превысила уровень среднего золотого медалиста. Результаты описаны в препринте, опубликованном на сервере arXiv.

«Я думаю, что пройдет совсем немного времени, и компьютеры смогут решать не только геометрические задачи, а будут получать полные оценки по IMO», — говорит Кевин Баззард (Kevin Buzzard), математик из Имперского колледжа Лондона.

Решение задач по евклидовой геометрии — это одна из четырех тем, охватываемых задачами IMO — остальные охватывают такие области, как теория чисел, алгебра и комбинаторика. Задачи по геометрии требуют особых навыков искусственного интеллекта (ИИ), поскольку участники должны предоставить строгое доказательство утверждения о геометрических объектах. В июле прошлого года состоялся публичный дебют AlphaGeometry2 вместе с новой системой AlphaProof, которую DeepMind разработала для решения негеометрических вопросов в наборах задач IMO.

Математический язык

Из сгенерированных синтетических доказательств 9% — со вспомогательными конструкциями. Только примерно 0,05% синтетических обучающих доказательств длиннее, чем среднее доказательство AlphaGeometry для тестового набора задач. Самое сложное синтетическое доказательство имеет впечатляющую длину 247 с двумя вспомогательными конструкциями. Большинство синтетических теорем, как правило, не так элегантны, как теоремы, найденные человеком.

Google DeepMind

AlphaGeometry состоит из комбинации компонентов, включающих специализированную языковую модель и «нейросимволическую» систему, которая не обучается на основе данных, как это делают нейронные сети, а содержит абстрактные рассуждения, закодированные человеком. Команда обучила языковую модель говорить на формальном математическом языке, что позволяет автоматически проверять ее логичность и отсеивать «галлюцинации» — бессвязные или ложные утверждения, которые склонны делать чат-боты с искусственным интеллектом.

В AlphaGeometry2 команда внесла ряд улучшений, включая интеграцию современной крупной языковой модели Gemini от Google. Команда также ввела возможность для ИИ рассуждать, перемещая геометрические объекты по плоскости, например, перемещать точку вдоль линии, чтобы изменить высоту треугольника, и решать линейные уравнения.

Участник Международной математической олимпиады. Международная математическая олимпиада — это престижное ежегодное соревнование для одаренных школьников.

Valerie Kuypers/AFP via Getty

Система смогла решить 84% всех задач по геометрии, поставленных на ММО за последние 25 лет, по сравнению с 54%, достигнутыми первой версией AlphaGeometry. Следует отметить, что каждый год один или несколько участников олимпиады успешно решают все задачи по геометрии.

Авторы статьи DeepMind пишут, что в будущем AlphaGeometry будет усовершенствована, в том числе и для решения математических задач, включающих неравенства и нелинейные уравнения, которые потребуются для полноценного «решения геометрии».

Быстрый прогресс

Первая система искусственного интеллекта, получившая золотую медаль за общий тест, может выиграть приз в размере 5 миллионов долларов США, который называется «Приз математической олимпиады по искусственному интеллекту», хотя этот конкурс требует, чтобы системы были с открытым исходным кодом, чего DeepMind не делает.

Баззард говорит, что его не удивляет быстрый прогресс, достигнутый как DeepMind. Но, добавляет он, хотя математические задачи сложны, предмет все еще концептуально прост, и предстоит преодолеть еще много трудностей, прежде чем ИИ сможет решать задачи на уровне исследовательской математики.

Исследователи ИИ будут с нетерпением ждать следующей IMO в Саншайн-Кост, Австралия, в июле. После того как задачи будут обнародованы и их смогут решать люди, системы на основе ИИ тоже смогут их решать. (Агенты ИИ не допускаются к участию в соревнованиях и, следовательно, не имеют права на получение медалей). Новые задачи считаются наиболее надежным тестом для систем, основанных на машинном обучении, поскольку нет риска, что задачи или их решения уже были в Интернете и могли «просочиться» в обучающие наборы данных, исказив результаты.