Новая архитектура языковых моделей позволит им работать прямо на смартфоне

Исследовательские группы Университета Бэйхана, Китай, Университета Гонконга и компании Microsoft работают над созданием больших языковых моделей, которых настолько компактны и энергоэффективны, что смогут работать прямо на смартфоне без доступа к облачным хранилищам.
Новая архитектура языковых моделей позволит им работать прямо на смартфоне
Дата-центр. Nvidia
Большие языковые модели (LLM), на которых работают чат-боты, такие как ChatGPT, становятся все лучше и лучше, но и все больше и больше. Они требуют все больше энергии и вычислительной мощности. А нам бы хотелось, чтобы LLM, не теряя своих качеств, становились дешевле, быстрее и потребляли меньше энергии. В идеале они должны стартовать прямо на смартфоне. И сегодня есть идеи, которые могут сделать LLM именно такими.

LLM, как и все нейронные сети, обучаются путем изменения массива параметров. Эти эти параметры представляют собой массив действительных чисел. Исследователи уже давно умеют сжимать сети, уменьшая точность этих параметров. В сжатом виде на параметр вместо 16 бит приходится 8 или даже 4 бита. Теперь ученые приближаются к пределу — параметру, который занимает один бит.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Как сделать 1-битный LLM

Однобитная модель.
Однобитная модель.
https://spectrum.ieee.org/1-bit-llm

Существует два общих подхода. Первый подход называется квантованием после обучения (PTQ). В этом случае сжатие параметров сети происходит после полного обучения. Другой подход (QAT) заключается в обучении сети с нуля таким образом, чтобы она сразу имела маленькие параметры. До сих пор подход PTQ пользовался большей популярностью среди исследователей.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Команда, в которую входили ученые из Университета Бэйхан, Китай и Университета Гонконга, представила метод PTQ под названием BiLLM. Он аппроксимирует большинство параметров сети, используя 1 бит, но для нескольких важных параметров, которые наиболее сильно влияют на производительность использовали 2 бита. В ходе одного из тестов команда «сжала» большую языковую модель LLaMa, которая имеет 13 миллиардов параметров.

Модель BiLLM работает несколько хуже, чем несжатая версия, но она требует примерно в 10 раз меньше памяти.

1-битные LLM против старших братьев

Новая архитектура позволит LLM стартовать прямо на смартфоне
Новая архитектура позволит LLM стартовать прямо на смартфоне
Unsplash
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В прошлом году команда Microsoft Research Asia в Пекине создала BitNet, первую 1-битную модель по методу QAT. BitNet не уступают LLM созданным по методу PTQ. Но уступает моделям с полной точностью. Но самое главное на этом этапе: сжатая модель примерно в 10 раз более энергоэффективна.

В феврале была анонсировала модель BitNet 1.58b, в которой параметры могут быть равны -1, 0 или 1. Такая модель затрачивает примерно 1,58 бит памяти на каждый параметр. Модель BitNet 1.58b с 3 миллиардами параметров выполняла различные языковые задачи так же хорошо, как модель LLaMA с тем же количеством параметров полной точности. Но BitNet 1.58b в 2,71 раза быстрее, она использует на 72% меньше памяти графического процессора и на 94% меньше энергии графического процессора.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В этом году команда Харбинского технологического института выпустила препринт по другому методу бинаризации (сжатия параметра до одного бита) LLM, названному OneBit. OneBit сочетает в себе элементы PTQ и QAT. Он использует предварительно обученный LLM с полной точностью для генерации данных для обучения сжатой версии. Модель OneBit с 13 миллиардами параметров приблизилась к показателям LLaMA с 13 миллиардами параметров. Но OneBit занимает 10 раз меньше памяти.

Большие языковые модели на новых чипах

Исследователи из Microsoft говорят, что сжатые (квантованные) модели имеют множество преимуществ. Они помещаются на чипах меньшего размера, передают меньше данных между памятью и процессорами и обеспечивают более быструю обработку. Однако современное оборудование не может в полной мере использовать преимущества этих моделей.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

LLM часто работают на графических процессорах, подобных тем, которые производятся Nvidia, где параметры имеют высокую точность. Такие процессоры тратят большую часть своей энергии на операцию умножения (параметры умножаются на входные данные и подаются в нейрон). Новое оборудование может изначально представлять каждый параметр как -1 или 1. Тогда умножение не понадобится.

На картинке приведена схема одного нейрона нейросети. Слева — X1, X2... Xk — вводимая информация (сегодня это чаще всего числовые векторы). Она «взвешивается», то есть каждый вводный сигнал умножается на параметр — W1, W2, ... Wk и складывается. В однобитных моделях параметры равны -1 или 1. Так что ничего умножать не надо достаточно просто складывать. Это дает огромный выигрыш в скорости и энергоэффективности.
На картинке приведена схема одного нейрона нейросети. Слева — X1, X2... Xk — вводимая информация (сегодня это чаще всего числовые векторы). Она «взвешивается», то есть каждый вводный сигнал умножается на параметр — W1, W2, ... Wk и складывается. В однобитных моделях параметры равны -1 или 1. Так что ничего умножать не надо достаточно просто складывать. Это дает огромный выигрыш в скорости и энергоэффективности.
Public Domain

Входные данные можно будет просто складывать и вычитать. Это действительно огромные экономия всех ресурсов, учитывая, что самые продвинутые LLM уже имеют триллионы параметров. Однобитным LLM нужны другие чипы, которых пока нет. Но ученые считают, что они на верном пути и по мере развития однобитных моделей, аппаратная поддержка тоже будет реализована. И в первую очередь это необходимо для создания локальных моделей для смартфонов.