METR, некоммерческая организация из Беркли, создала около 170 реальных задач в области кодирования, кибербезопасности, общего мышления и машинного обучения, а затем установила «человеческий базовый уровень», измерив, сколько времени потребовалось экспертам-программистам для их выполнения.
ИИ скоро сможет выполнять проекты, на которые у человека уходят недели

Затем команда разработала метрику для оценки прогресса моделей ИИ, которую она назвала «временной горизонт выполнения задачи». Это время, которое обычно требуется программистам для выполнения задач, которые модели ИИ могут выполнить с определенной долей успеха.
В препринте, опубликованном на этой неделе на сайте arXiv, METR сообщает, что GPT-2, ранняя большая языковая модель (LLM), опубликованная OpenAI в 2019 году, не справилась ни с одной из задач, на которые у экспертов-людей ушло более одной минуты. Модель Claude 3.7 Sonnet, выпущенная в феврале 2025 года американским стартапом Anthropic, выполнила 50% задач, на которые у людей ушло бы 59 минут.
В целом, временной горизонт 13 ведущих моделей ИИ удваивается примерно каждые семь месяцев с 2019 года, говорится в статье. Экспоненциальный рост временных горизонтов ИИ ускорился в 2024 году, когда последние модели удваивали свои горизонты примерно каждые три месяца.

При темпах прогресса в 2019-2024 годах METR предполагает, что модели ИИ смогут справляться с задачами, на которые у человека уходит около месяца при 50-процентной надежности, к 2029 году, а возможно, и раньше. Месяц работы человека, отмечается в статье, может быть достаточным, чтобы, например, открыть новую компанию или совершить научное открытие.
Однако Джошуа Ганс, профессор менеджмента в Университете Торонто (Канада), который писал об экономике ИИ, говорит, что подобные прогнозы не так уж и полезны: «Экстраполяция — это заманчиво, но мы еще так многого не знаем о том, как ИИ будет использоваться на самом деле, чтобы эти прогнозы были значимыми».
Человек против ИИ
Команда выбрала 50%-ный показатель успешности, поскольку он был наиболее устойчив к небольшим изменениям в распределении данных. «Если вы выбираете очень низкие или очень высокие пороги, удаление или добавление одной успешной или одной неудачной задачи соответственно сильно меняет вашу оценку», — говорит соавтор работы Лоуренс Чан. Повышение порога надежности с 50% до 80% сократило средний временной горизонт в пять раз — хотя общее время удвоения и линия тренда были схожими.
За последние пять лет улучшения общих возможностей LLM были в основном обусловлены увеличением масштаба — объема обучающих данных, времени обучения и количества параметров модели. В статье прогресс по метрике временного горизонта объясняется в основном улучшениями в логическом мышлении ИИ, использовании инструментов, исправлении ошибок и самоконтроле при выполнении задач.
Подход METR к временному горизонту устраняет некоторые ограничения в существующих эталонных тестах ИИ, которые лишь приблизительно соответствуют реальной работе и быстро «насыщаются» по мере улучшения моделей. Новый метод обеспечивает непрерывную, интуитивную меру, которая лучше отражает значимый долгосрочный прогресс, говорит соавтор работы Бен Уэст.
Ведущие модели ИИ достигают сверхчеловеческой производительности во многих контрольных показателях, но они пока оказали относительно небольшое экономическое влияние, говорит Уэст. Последнее исследование METR предлагает частичный ответ на эту загадку: лучшие модели находятся на временном горизонте около 40 минут, но не так много экономически ценной работы, которую человек может выполнить за это время, говорит Уэст.
Но Антон Тройников, исследователь ИИ и предприниматель из Сан-Франциско, Калифорния, говорит, что ИИ имел бы большее экономическое влияние, если бы организации были готовы экспериментировать и инвестировать в эффективное использование моделей.

Ограничения подхода
Тройников говорит, что хотя временной горизонт завершения задачи является полезной метрикой для оценки экономической полезности существующих моделей, он может не показать, насколько хорошо модели могут «обобщать», выполняя задачи, которые отличаются от тех, на которых они были обучены.
METR признает, что его подход не охватывает всю сложность реальной работы, но говорит, что он обнаружил похожую экспоненциальную тенденцию в росте временного горизонта при проверке того, насколько близко задачи похожи реальную работу.
Авторы говорят, что есть некоторые факторы, которые могут повлиять на их прогноз относительно того, когда будет достигнут временной горизонт в один месяц. Вычислительная мощность значительно возросла за последние пять лет, но физические и экономические факторы будут ограничивать будущее масштабирование, что, вероятно, будет препятствовать прогрессу ИИ. Но это будет частично компенсировано продолжающимися улучшениями алгоритмов, говорят исследователи. METR также ожидает, что усилия по предоставлению моделям агентских функций и повышению их эффективности в автоматизации исследований самого ИИ продолжат приносить плоды.
Ганс говорит, что следующим шагом станут исследования, которые объединяют системы ИИ с людьми и изучают, насколько хорошо эти пары улучшают общую производительность задач.