Новая архитектура языковых моделей позволит им работать прямо на смартфоне
LLM, как и все нейронные сети, обучаются путем изменения массива параметров. Эти эти параметры представляют собой массив действительных чисел. Исследователи уже давно умеют сжимать сети, уменьшая точность этих параметров. В сжатом виде на параметр вместо 16 бит приходится 8 или даже 4 бита. Теперь ученые приближаются к пределу — параметру, который занимает один бит.
Как сделать 1-битный LLM
Существует два общих подхода. Первый подход называется квантованием после обучения (PTQ). В этом случае сжатие параметров сети происходит после полного обучения. Другой подход (QAT) заключается в обучении сети с нуля таким образом, чтобы она сразу имела маленькие параметры. До сих пор подход PTQ пользовался большей популярностью среди исследователей.
Команда, в которую входили ученые из Университета Бэйхан, Китай и Университета Гонконга, представила метод PTQ под названием BiLLM. Он аппроксимирует большинство параметров сети, используя 1 бит, но для нескольких важных параметров, которые наиболее сильно влияют на производительность использовали 2 бита. В ходе одного из тестов команда «сжала» большую языковую модель LLaMa, которая имеет 13 миллиардов параметров.
Модель BiLLM работает несколько хуже, чем несжатая версия, но она требует примерно в 10 раз меньше памяти.
1-битные LLM против старших братьев
В прошлом году команда Microsoft Research Asia в Пекине создала BitNet, первую 1-битную модель по методу QAT. BitNet не уступают LLM созданным по методу PTQ. Но уступает моделям с полной точностью. Но самое главное на этом этапе: сжатая модель примерно в 10 раз более энергоэффективна.
В феврале была анонсировала модель BitNet 1.58b, в которой параметры могут быть равны -1, 0 или 1. Такая модель затрачивает примерно 1,58 бит памяти на каждый параметр. Модель BitNet 1.58b с 3 миллиардами параметров выполняла различные языковые задачи так же хорошо, как модель LLaMA с тем же количеством параметров полной точности. Но BitNet 1.58b в 2,71 раза быстрее, она использует на 72% меньше памяти графического процессора и на 94% меньше энергии графического процессора.
В этом году команда Харбинского технологического института выпустила препринт по другому методу бинаризации (сжатия параметра до одного бита) LLM, названному OneBit. OneBit сочетает в себе элементы PTQ и QAT. Он использует предварительно обученный LLM с полной точностью для генерации данных для обучения сжатой версии. Модель OneBit с 13 миллиардами параметров приблизилась к показателям LLaMA с 13 миллиардами параметров. Но OneBit занимает 10 раз меньше памяти.
Большие языковые модели на новых чипах
Исследователи из Microsoft говорят, что сжатые (квантованные) модели имеют множество преимуществ. Они помещаются на чипах меньшего размера, передают меньше данных между памятью и процессорами и обеспечивают более быструю обработку. Однако современное оборудование не может в полной мере использовать преимущества этих моделей.
LLM часто работают на графических процессорах, подобных тем, которые производятся Nvidia, где параметры имеют высокую точность. Такие процессоры тратят большую часть своей энергии на операцию умножения (параметры умножаются на входные данные и подаются в нейрон). Новое оборудование может изначально представлять каждый параметр как -1 или 1. Тогда умножение не понадобится.
Входные данные можно будет просто складывать и вычитать. Это действительно огромные экономия всех ресурсов, учитывая, что самые продвинутые LLM уже имеют триллионы параметров. Однобитным LLM нужны другие чипы, которых пока нет. Но ученые считают, что они на верном пути и по мере развития однобитных моделей, аппаратная поддержка тоже будет реализована. И в первую очередь это необходимо для создания локальных моделей для смартфонов.