Как языковые ИИ-модели добились такого невероятного прогресса всего за десятилетие

Группа исследователей проанализировала рост больших языковых моделей с 2012 года до наших дней, и постаралась ответить на вопрос: за счет чего этот рост достигнут? Как показали ученые на прогресс в развитии языковых моделей повлияли два фактора: алгоритмические инновации и рост вычислительных мощностей. Сейчас вычислительные мощности — важнее, но, видимо, так будет не всегда.
Как языковые ИИ-модели добились такого невероятного прогресса всего за десятилетие
Дата-центр. Nvidia
Люди думают примерно с одной и той скоростью. Когда хайп спадет, и сумасшедшие деньги, которые сегодня вкладывают в вычислительные мощности, более-менее иссякнут, алгоритмы своей важности не потеряют.

В 2012 году лучшими языковыми моделями были небольшие рекуррентные сети, которым было сложно сформировать связные предложения. Но если мы перенесемся в сегодняшний день, то увидим большие языковые модели, такие как GPT-4, которые превосходят большинство американских абитуриентов университетов по тесту SAT. Как стал возможен такой быстрый прогресс?

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В новой работе исследователи из Epoch, MIT FutureTech и Северо-Восточного университета решили разобраться с этим вопросом. Их исследование разделяет движущие силы прогресса в языковых моделях на два фактора: увеличение объема вычислений, используемых для обучения языковых моделей, и алгоритмические инновации.

Результаты исследования показывают, что благодаря усовершенствованиям алгоритмов объем вычислений, необходимый для обучения языковой модели до определенного уровня производительности, сокращается вдвое примерно каждые восемь месяцев.

«Этот результат имеет решающее значение для понимания как исторического, так и будущего прогресса языковых моделей», — говорит Энсон Хо, соавторов работы. «Хотя масштабирование вычислений имеет решающее значение, они все-таки только один из моментов. Чтобы получить полную картину, вам необходимо учитывать невероятный прогресс в изобретении алгоритмов».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

От эпохи «динозавров» (2012 год) до наших дней (2024 год)

Лог сложности моделей, использованных в исследовании, из 231 языковой модели, проанализированной в работе, охватывающей более 8 порядков объемов вычислений. Каждая фигура представляет модель. Размер фигуры пропорционален количеству вычислений, использованных во время обучения. arXiv (2024).
Лог сложности моделей, использованных в исследовании, из 231 языковой модели, проанализированной в работе, охватывающей более 8 порядков объемов вычислений. Каждая фигура представляет модель. Размер фигуры пропорционален количеству вычислений, использованных во время обучения. arXiv (2024).
https://arxiv.org/abs/2403.05812

Методология статьи основана на «нейронных законах масштабирования»: математических отношениях, которые предсказывают производительность языковой модели с учетом определенных объемов вычислений, обучающих данных или параметров языковой модели. Ученые собрали набор данных 231 языковой модели с 2012 года и разработали «модифицированный нейронный закон масштабирования», который учитывает не только вычислительные мощности, но и алгоритмические улучшения.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

На основе этой модели авторы показали, что масштабирование вычислений все-таки было более важным, чем алгоритмические инновации. Фактически они обнаружили, что относительная важность алгоритмических улучшений со временем снизилась.

«Это не обязательно означает, что инновации в алгоритмах замедляются», — говорит Тамай Бесироглу, соавтор статьи. «Наше предпочтительное объяснение состоит в том, что алгоритмический прогресс остался примерно постоянным, а объем вычислений существенно увеличился, в результате чего алгоритмические улучшения становятся относительно менее важными».

Расчеты авторов подтверждают эту концепцию: они обнаруживают ускорение роста вычислительных ресурсов, но не свидетельствуют об ускорении или замедлении алгоритмических улучшений.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Трансформер

Схема работы архитектуры трансформера
Схема работы архитектуры трансформера
Википедия
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Слегка изменив модель, ученые количественно оценили значимость ключевой инновации в истории машинного обучения: это — Transformer, который стал доминирующей архитектурой языковой модели с момента своего появления в 2017 году. Авторы считают, что повышение эффективности, обеспечиваемое Transformer соответствуют почти двум годам алгоритмического прогресса в этой области, что подчеркивает значимость изобретения.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Несмотря на масштабность, исследование имеет несколько ограничений. Хо говорит: «Наш подход также не измеряет алгоритмический прогресс в решении других задач, таких как программирование и математика, для выполнения которых можно настроить языковые модели».

Предсказание будущего

Результаты исследования помогают оценить, как могут развиваться будущие разработки в области ИИ, что будет иметь важные последствия для политики в области ИИ.

«Эта работа подчеркивает дальнейшую демократизацию ИИ», — говорит Нил Томпсон, соавтор работы и директор MIT FutureTech. «Эти алгоритмические улучшения эффективности означают, что каждый год недоступные прежде уровни производительности ИИ становятся доступными для все большего числа пользователей».

Научный сотрудник Open Philanthropy Research Лукас Финнведен, который не участвовал в работе говорит: «В работе поднят вопрос, который меня очень волнует, поскольку он напрямую предсказывает, каких темпов прогресса нам следует ожидать в будущем, и что поможет обществу подготовиться к новым достижениям. В целом, результаты показывают, что увеличение объема вычислений было и будет отвечать за большую часть прогресса больших языковых моделей, пока бюджеты вычислений продолжают расти более чем в 4 раза за год. Но, кажется, так будет не всегда. Если темпы роста инвестиций замедлятся, прогресс в развитии алгоритмов выйдет на первый план».