08.07.2023, 12:16

Разработан более дешевый способ обучения Больших языковых моделей

Команда ученых из Стэнфорда разработала новый способ оптимизации предварительного обучения Больших языковых моделей, который в два раза быстрее, чем существующие подходы. Это позволит значительно удешевить разработку Больших языковых моделей и сделать их создание более доступным независимым разработчикам.

Владимир Губайловский

Теги:

Искусственный интеллект

Роботы

Нейросети

Разработан более дешевый способ обучения Больших языковых моделей

Unsplash.com. DeepMind

Цель таких работ — сделать Большие языковые модели (такие как GPT), требующие миллионы на обучение, работающие на мощнейших компьютерах с огромными дата-центрами, доступными на домашнем компьютере или смартфоне. И разработчики двигаются в этом направлении.

ChatGPT и другие приложения, использующие Большие языковые модели (LLM), находят все более широкое применение и привлекают пристальное внимание СМИ. Однако в сфере LLM доминируют несколько крупных технологических компаний, поскольку предварительное обучение этих моделей является чрезвычайно дорогостоящим процессом: стоимость начинается с 10 миллионов долларов. Сколько стоило обучение GPT не сообщается, но оценить его в миллиард долларов не будет серьезным преувеличением.

«Большие языковые модели не очень-то доступны для небольших организаций или академических групп», — говорит Хонг Лю, аспирант факультета информатики Стэнфордского университета.

Чтобы изменить ситуацию, Лю и его коллеги решили усовершенствовать существующие методы оптимизации LLM. В результате был разработан подход под названием Sophia, который сокращает время предварительного обучения вдвое.

Оптимизация оптимизации

Unsplash.com. DeepMind

Чтобы оптимизировать предварительное обучение LLM ученые использовали два приема. Первый, известный как оценка кривизны, не нов, но команда Стэнфорда нашла способ сделать его более эффективным.

Чтобы понять их подход, рассмотрим заводскую сборочную линию. Чтобы она эффективно функционировала, менеджеру завода необходимо оптимизировать количество этапов, необходимых для превращения сырья в конечный продукт, понимать и соответствующим образом распределять рабочую нагрузку на каждом этапе.

То же самое верно и для предварительного обучения LLM. Эти модели имеют миллионы или даже миллиарды параметров, которых Лю сравнивает с рабочими на фабрике, стремящимися к одной и той же цели. Кривизна по определению Лю — это максимальная скорость, которую можно достичь по мере продвижения к конечной цели — предварительно обученному LLM. Если сравнить LLM с заводом, то кривизна — это рабочая нагрузка каждого сотрудника.

Если программа оптимизации может оценить эту кривизну (рабочую нагрузку), она может сделать предварительное обучение LLM более эффективным. Но оценить кривизну с помощью существующих методов чрезвычайно сложно и дорого. Сама такая оценка будет дороже, чем все производство на заводе (или обучение LLM). Во многом поэтому современные подходы к оптимизации предварительного обучения LLM обходятся без этапа оценки кривизны.

Но Лю и его коллеги заметили возможное ускорение существующих методов оценки кривизны: предыдущие исследователи обновляли свои оценки кривизны на каждом шагу оптимизации. Стэнфордская команда задалась вопросом, нельзя ли сделать процесс более эффективным, уменьшив количество измерений значений параметров?

Чтобы проверить эту идею, команда Стэнфорда разработала Sophia, которая оценивала кривизну параметров примерно каждые 10 шагов. Оказалась, что такое снижение точности не влияет на результат. «Это оказалось огромной победой», — говорит Лю.

Второй оптимизационный трюк команды, так называемый clipping (отсекание), решает проблему неточной оценки кривизны. «Если оценка неверна, значит мы еще больше нагрузим людей, которые и так работают на пределе. Это делает ситуацию даже хуже, чем если бы оценки вообще не было», — говорит Лю.

Отсекание предотвращает такую ошибку и устанавливает порог, или максимальную оценку кривизны. «В нашей метафоре с фабрикой это все равно что установить ограничение рабочей нагрузки для всех сотрудников», — говорит Лю.

Другая метафора, часто применяемая к оптимизации — это ландшафт из холмов и долин, где хотите оказаться в самой точке самой низкой долины во всем ландшафте. Без отсекания, говорит Лю, можно застрять в седловине между двумя горами. Очевидно, что есть долины, расположенные ниже, но вы никуда не можете двинуться. «При оптимизации это не то место, где вы хотите оказаться», — говорит Лю.

Тестирование Sophia

Лю и его коллеги использовали Sophia для предварительного обучения относительно небольшого LLM, используя тот же размер и конфигурацию модели, которые были использованы для создания OpenAI GPT-2. У этой модели от 125M до 770M параметров. На сегодня это совсем немного: уже есть системы с триллионами параметров.

Сочетание оценки кривизны и отсекания в Sophia позволило при оптимизации предварительного обучения LLM плавно перейти к самой низкой точке долины за половину шагов и половину времени, требуемого системе Adam — самому совершенному на сегодня оптимизатору LLM.

Спуск в долину: Adam (красный) и Sophia (черный)

https://arxiv.org/pdf/2305.14342.pdf

По словам Лю, впервые за девять лет кто-то сумел показать существенное улучшение по сравнению с Adam в предварительном обучении языковой модели: «Это может означать огромное снижение стоимости обучения реальных больших моделей». И по мере масштабирования моделей преимущества Sophia должны только увеличиваться.

Лю и его коллеги надеются разработать более крупную модель LLM с использованием Sophia. Он также надеется увидеть применение Sophia в других областях машинного обучения, таких как модели компьютерного зрения или мультимодальные модели. Лю говорит: «Потребуется некоторое время и ресурсы, чтобы перенести Sophia в новую область, но поскольку она с открытым исходным кодом, сообщество, безусловно, может это сделать».