Как проверить, что ИИ достиг уровня интеллекта человека

Чатбот компании OpenAI o3 получил высокий балл в тесте, отмечающем прогресс на пути к общему искусственному интеллекту (AGI). Модель o3 от OpenAI набрала 87,5%, превзойдя предыдущий лучший результат для системы искусственного интеллекта — 55,5%.Это важный шаг по направлению к созданию «общего искусственного интеллекта». Но понять, что ИИ достиг этого уровня очень трудно.
Как проверить, что ИИ достиг уровня интеллекта человека
Некоторые исследователи считают, что системы искусственного интеллекта скоро достигнут уровня человеческого интеллекта; другие полагают, что до этого еще далеко. Getty
По мнению ученых, ответ на поставленный вопрос можно сформулировать так: если мы больше не сможем создавать задачи, которые обычный человек решает легко, а ИИ с ними не справляется, можно будет сказать, что ИИ практически достиг уровня «общего искусственного интеллекта».

Чатбот компании OpenAI o3 получил высокий балл в тесте, отмечающем прогресс на пути к общему искусственному интеллекту (AGI). Модель o3 от OpenAI набрала 87,5%, превзойдя предыдущий лучший результат для системы искусственного интеллекта — 55,5%.Это важный шаг по направлению к созданию «общего искусственного интеллекта». Но понять, что ИИ достиг этого уровня очень трудно.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Это «настоящий прорыв», говорит исследователь ИИ Франсуа Шолле, который создал тест под названием Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) в 2019 году. По словам Шолле, высокий балл в тесте не означает, что AGI — в широком смысле компьютерная система, которая может рассуждать, планировать и обучаться навыкам так же хорошо, как человек, — уже достигнут, но o3 «абсолютно» способен рассуждать и «обладает довольно значительной способностью к обобщению».

Исследователи высоко оценили работу o3 в различных тестах (бенчмарках), включая чрезвычайно сложный тест FrontierMath, о котором в ноябре объявил виртуальный исследовательский институт Epoch AI. «Это чрезвычайно впечатляет», — говорит Дэвид Рейн, исследователь бенчмарков для ИИ.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Но многие, включая Рейна, предупреждают, что трудно сказать, действительно ли тест ARC-AGI измеряет способность ИИ к рассуждению и обобщению. «Было много эталонов, которые якобы измеряли что-то фундаментальное для интеллекта, но оказалось, что это не так», — говорит Рейн. По его словам, охота за все более совершенными тестами продолжается.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Компания OpenAI не раскрывает принцип работы o3, но эта система появилась на рынке вскоре после модели o1, которая использует логику «цепочки рассуждений» для решения проблем, проговаривая про себя ряд все шаги решения. Некоторые специалисты считают, что o3 может создавать несколько различных цепочек размышлений, чтобы помочь выбрать лучший ответ из множества вариантов.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

По словам Шолле, тратя больше времени на уточнение ответа во время тестирования, можно значительно улучшить результаты. Но o3 уже требует больших затрат: чтобы справиться с каждым заданием в тесте ARC-AGI, он тратил в среднем 14 минут и, вероятно, стоил тысячи долларов. (По словам Шолле, стоимость вычислений оценивается на основе того, сколько OpenAI берет с клиентов за токен или слово, что зависит от нескольких факторов, включая использование электроэнергии и стоимость оборудования).

Что такое AGI

Хотя термин AGI часто используется для описания вычислительной системы, которая соответствует или превосходит когнитивные способности человека в широком диапазоне задач, технического определения для него не существует. Как следствие, нет единого мнения о том, когда инструменты ИИ смогут достичь AGI. Одни говорят, что этот момент уже наступил, другие — что до него еще далеко.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Для отслеживания прогресса на пути к AGI разрабатывается множество тестов. Некоторые из них, в том числе Rein's 2023 Google-Proof Q&A, предназначены для оценки производительности системы ИИ в решении научных задач уровня доктора философии. Тест MLE-bench от OpenAI 2024 года предполагает участие системы ИИ в решении 75 задач, размещенными на Kaggle, онлайн-платформе для соревнований по науке о данных. В число задач входят такие реальные проблемы, как перевод древних текстов и разработка вакцин.

Хорошие тесты должны сами решать множество проблем. Например, важно, чтобы ИИ не видел одни и те же вопросы во время обучения и тестирования, вопросы должны быть составлены таким образом, чтобы ИИ не мог обмануть тестировщика, используя «короткие пути». «LLM умеют использовать тонкие текстовые подсказки для получения ответов, не прибегая к настоящим рассуждениям», — говорит Сян Юэ,который изучает большие языковые модели (LLM). В идеале тесты должны быть такими же «грязными» и «шумными», как вопросы, возникающие в реальных условиях, и при этом решение не должно быть слишком энергоемким и долгим, добавляет ученый.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Юэ руководил разработкой теста под названием Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI (MMMU), в котором чат-ботам предлагается решать визуальные задачи университетского уровня, такие как интерпретация нот, графиков и электрических схем. По словам Юэ, рекордсменом MMMU в настоящее время является o1 от OpenAI — 78,2% (результат o3 неизвестен), тогда как высший результат человека — 88,6%.

Тест ARC-AGI, напротив, опирается на базовые навыки математики и распознавания образов, которые обычно развиваются у человека в раннем детстве. В этот тесте испытуемым предоставляется демонстрационный набор конструкций «до» и «после», и их просят сделать вывод о состоянии «после» для новой конструкции «о» (см. картинку «До и после»).

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Nature

Растущие показатели

Хотя в декабре модель o3 побила 85%-ный результат, установленный для главного приза ARC 2024 года в размере 600 000 долларов США — конкурса, спонсируемого некоммерческим фондом ARC Prize Foundation, учрежденным Шолле и Майком Кнупом, — o3 превысила лимит стоимости самого решения.

Интересно, что она также не смогла решить несколько задач, которые люди считают простыми. Шолле обратился к исследовательскому сообществу с просьбой помочь определить, что отличает решаемые ИИ задачи от неразрешимых.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

К марту он представит более сложный тест, ARC-AGI-2. Первые эксперименты показывают, что o3 набирает менее 30% баллов, в то время как умный человек легко набирает более 95%. По словам Шолле, в разработке находится третья версия теста, в которой будет оцениваться способность ИИ победить в коротких видеоиграх.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

По словам Рейна, следующий большой рубеж для тестов ИИ — это разработка эталонов для оценки способности систем ИИ действовать в качестве «агентов», которые могут решать общие задачи, требующие множества сложных шагов и не имеющие одного правильного ответа. «Все существующие тесты основаны на вопросах и ответах», — говорит ученый. — «Но это не покрывает многие вещи в человеческом общении, исследованиях и самоанализе».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

По мере совершенствования систем искусственного интеллекта становится все труднее разрабатывать тесты, подчеркивающие разницу между возможностями человека и ИИ. Эта проблема сама по себе является хорошим тестом для AGI,

Шолле в декабре в блоге ARC Prize Foundation написал: «Вы поймете, что AGI уже здесь, когда создание задач, простых для обычного человека, но сложных для ИИ, станет просто невозможным».