Языковые ИИ-модели становятся энергоэффективными и похожими на работу мозга
Группа инженеров-программистов из Калифорнийского университета в сотрудничестве с коллегами из Университета Сучжоу и компании LuxiTec разработали метод, позволяющий запускать языковые модели ИИ без использования матричного умножения (MatMul). Результаты исследования опубликованы на сервере препринтов arXiv.
С ростом мощности крупных языковых моделей (LLM), таких как ChatGPT, значительно увеличились и требования к вычислительным ресурсам. Традиционно, процесс работы LLM включает матричное умножение, при котором входные данные комбинируются с весами в нейронных сетях для получения наиболее вероятных ответов на запросы.
Несмотря на использование графических процессоров (GPU), специально адаптированных для параллельных вычислений, матричное умножение стало настоящей проблемой в работе современных LLM.
Новый подход исследователей радикально меняет способ обработки данных в языковых моделях. Вместо 16-битных чисел с плавающей точкой исследователи использовали тернарная систему значений {-1, 0, 1}.
Тесты показали, что новая система достигает производительности современных моделей, но при этом потребляет значительно меньше вычислительных ресурсов и электроэнергии.
Перспективы и вызовы нового метода
Снижение требований к вычислительным ресурсам может сделать мощные языковые модели более доступными. Уменьшение энергопотребления снизит негативное влияние ИИ на окружающую среду.
Возможно, большим языковым моделям с новой архитектурой больше будут не нужны мощные GPU-процессоры. Тогда ИИ-модели можно будет устанавливать на многих дешевых и простых устройствах, например, на смартфонах.
Перспективы очень серьезные, но практическая реализация новых ИИ-моделей потребует, вероятно, и новых процессоров, а это небыстро.