Предложенный метод сжатия позволяет быстро тестировать и внедрять новые решения на основе нейросетей, экономя время и деньги на разработку. Это делает LLM доступнее не только для крупных компаний, но и для малого бизнеса, некоммерческих лабораторий и институтов, индивидуальных разработчиков и исследователей.
Большие языковые модели больше не требуют мощных серверов: ученые совершили прорыв в оптимизации LLM

Ранее для запуска языковой модели на мобильном устройстве требовалось провести ее квантизацию на дорогостоящем сервере, что занимало от нескольких часов до недель. Теперь такое преобразование можно выполнить прямо на телефоне или ноутбуке за считанные минуты.
Трудности применения LLM
Большие языковые модели требуют значительных вычислительных ресурсов, что усложняет их использование. Это касается и опенсорс-моделей. Например, одна из них — популярная DeepSeek-R1 — не помещается даже на дорогостоящих серверах, предназначенных для работы с искусственным интеллектом и машинным обучением. Это означает, что применять большие модели может только ограниченный круг компаний, даже если сама модель находится в открытом доступе.
Новый метод позволяет уменьшить размер модели, сохранив ее качество, и запустить на более доступных устройствах. Например, с помощью этого метода можно сжимать даже такие большие модели, как DeepSeek-R1 на 671 млрд параметров и Llama 4 Maverick на 400 млрд параметров, которые до сих пор удавалось квантовать только самыми простыми методами со значительной потерей в качестве.
Более эффективный способ квантизации открывает больше возможностей для использования LLM в различных областях, особенно в тех, где ресурсы ограничены — например, в образовании или социальной сфере. Стартапы и независимые разработчики также смогут использовать сжатые модели для создания инновационных продуктов и сервисов, не тратя деньги на дорогое оборудование.

Подробнее о новом методе
Разработанный метод квантизации называется HIGGS (от англ. Hadamard Incoherence with Gaussian MSE-optimal GridS). Он позволяет сжимать нейросети без использования дополнительных данных и без вычислительно сложной оптимизации параметров, что особенно полезно в ситуациях, когда недостаточно подходящих данных для дообучения.
Метод уже проверили на моделях Llama 3 и Qwen2.5. Эксперименты показали, что HIGGS — один из лучших способов квантизации по соотношению качества к размеру модели среди существующих методов без использования данных, в том числе NF4 (4-bit NormalFloat) и HQQ (Half-Quadratic Quantization).
В разработке инновационного метода участвовали специалисты из НИУ ВШЭ, Массачусетского технологического института (MIT), Австрийского института науки и технологий (ISTA) и Научно-технологического университета имени короля Абдаллы (KAUST).
HIGGS уже доступен разработчикам и исследователям на Hugging Face и GitHub, а научную статью про него можно прочитать на arXiv.

Реакция научного сообщества
Научная статья, где описан новый метод, одобрена к защите на международной конференции по искусственному интеллекту — NAACL (The North American Chapter of the Association for Computational Linguistics). Она пройдет с 29 апреля по 4 мая 2025 года в Альбукерке, Нью-Мексико, США. В ней примут участие такие компании и вузы, как Яндекс, Google, Microsoft Research, Гарвардский университет и другие.
Ранее российские ученые представили 12 научных исследований в области квантизации больших языковых моделей. Например, команда Yandex Research разработала методы сжатия больших языковых моделей, помогающие сократить расходы на вычислительные ресурсы до восьми раз без значительной потери качества ответов нейросети. Также был создан сервис, позволяющий запускать модель с 8 млрд параметров на обычном компьютере или смартфоне через интерфейс браузера — без больших вычислительных мощностей.