Как языковые ИИ-модели добились такого невероятного прогресса всего за десятилетие
В 2012 году лучшими языковыми моделями были небольшие рекуррентные сети, которым было сложно сформировать связные предложения. Но если мы перенесемся в сегодняшний день, то увидим большие языковые модели, такие как GPT-4, которые превосходят большинство американских абитуриентов университетов по тесту SAT. Как стал возможен такой быстрый прогресс?
В новой работе исследователи из Epoch, MIT FutureTech и Северо-Восточного университета решили разобраться с этим вопросом. Их исследование разделяет движущие силы прогресса в языковых моделях на два фактора: увеличение объема вычислений, используемых для обучения языковых моделей, и алгоритмические инновации.
Результаты исследования показывают, что благодаря усовершенствованиям алгоритмов объем вычислений, необходимый для обучения языковой модели до определенного уровня производительности, сокращается вдвое примерно каждые восемь месяцев.
«Этот результат имеет решающее значение для понимания как исторического, так и будущего прогресса языковых моделей», — говорит Энсон Хо, соавторов работы. «Хотя масштабирование вычислений имеет решающее значение, они все-таки только один из моментов. Чтобы получить полную картину, вам необходимо учитывать невероятный прогресс в изобретении алгоритмов».
От эпохи «динозавров» (2012 год) до наших дней (2024 год)
Методология статьи основана на «нейронных законах масштабирования»: математических отношениях, которые предсказывают производительность языковой модели с учетом определенных объемов вычислений, обучающих данных или параметров языковой модели. Ученые собрали набор данных 231 языковой модели с 2012 года и разработали «модифицированный нейронный закон масштабирования», который учитывает не только вычислительные мощности, но и алгоритмические улучшения.
На основе этой модели авторы показали, что масштабирование вычислений все-таки было более важным, чем алгоритмические инновации. Фактически они обнаружили, что относительная важность алгоритмических улучшений со временем снизилась.
«Это не обязательно означает, что инновации в алгоритмах замедляются», — говорит Тамай Бесироглу, соавтор статьи. «Наше предпочтительное объяснение состоит в том, что алгоритмический прогресс остался примерно постоянным, а объем вычислений существенно увеличился, в результате чего алгоритмические улучшения становятся относительно менее важными».
Расчеты авторов подтверждают эту концепцию: они обнаруживают ускорение роста вычислительных ресурсов, но не свидетельствуют об ускорении или замедлении алгоритмических улучшений.
Трансформер
Слегка изменив модель, ученые количественно оценили значимость ключевой инновации в истории машинного обучения: это — Transformer, который стал доминирующей архитектурой языковой модели с момента своего появления в 2017 году. Авторы считают, что повышение эффективности, обеспечиваемое Transformer соответствуют почти двум годам алгоритмического прогресса в этой области, что подчеркивает значимость изобретения.
Несмотря на масштабность, исследование имеет несколько ограничений. Хо говорит: «Наш подход также не измеряет алгоритмический прогресс в решении других задач, таких как программирование и математика, для выполнения которых можно настроить языковые модели».
Предсказание будущего
Результаты исследования помогают оценить, как могут развиваться будущие разработки в области ИИ, что будет иметь важные последствия для политики в области ИИ.
«Эта работа подчеркивает дальнейшую демократизацию ИИ», — говорит Нил Томпсон, соавтор работы и директор MIT FutureTech. «Эти алгоритмические улучшения эффективности означают, что каждый год недоступные прежде уровни производительности ИИ становятся доступными для все большего числа пользователей».
Научный сотрудник Open Philanthropy Research Лукас Финнведен, который не участвовал в работе говорит: «В работе поднят вопрос, который меня очень волнует, поскольку он напрямую предсказывает, каких темпов прогресса нам следует ожидать в будущем, и что поможет обществу подготовиться к новым достижениям. В целом, результаты показывают, что увеличение объема вычислений было и будет отвечать за большую часть прогресса больших языковых моделей, пока бюджеты вычислений продолжают расти более чем в 4 раза за год. Но, кажется, так будет не всегда. Если темпы роста инвестиций замедлятся, прогресс в развитии алгоритмов выйдет на первый план».