Создана нейросеть, которая настраивает себя в процессе работы

Исследователи искусственного интеллекта из японского стартапа Sakana AI объявили о разработке самонастраивающейся большой языковой модели (LLM) под названием Transformer2. LLM сама регулирует веса параметров для более точной настройки обучения.
Владимир Губайловский
Владимир Губайловский
Создана нейросеть, которая настраивает себя в процессе работы
Unsplash
Общий результат использования нового подхода заключается в том, что он позволяет LLM адаптироваться на лету, когда она сталкивается с незнакомой задачей. Тестирование системы показало, что она способна работать с традиционными запросами так же хорошо, как и другие LLM, но при этом гораздо более гибко отвечать на запросы, которые ставят в тупик другие модели.

Исследователи искусственного интеллекта из японского стартапа Sakana AI объявили о разработке самонастраивающейся большой языковой модели (LLM) под названием Transformer2. LLM сама регулирует веса параметров для более точной настройки обучения. Ци Сунь, Эдоардо Цетин и Юджин Танг разместили свою работу на сервере препринтов arXiv.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Обучение на лету

Обзор метода. Слева) Во время обучения мы используем SVF и RL для обучения «экспертных» векторов z, которые масштабируют сингулярные значения весовых матриц. Справа) Во время вывода мы предлагаем три различных метода для адаптивного выбора/комбинирования выученных экспертных векторов.
Обзор метода. Слева) Во время обучения мы используем SVF и RL для обучения «экспертных» векторов z, которые масштабируют сингулярные значения весовых матриц. Справа) Во время вывода мы предлагаем три различных метода для адаптивного выбора/комбинирования выученных экспертных векторов.
arXiv (2025). DOI: 10.48550/arxiv.2501.06252

По мере развития LLM исследователи ИИ продолжают совершенствовать их, чтобы сделать более эффективными и менее энергозатратными. В новой работе исследователи нашли способ уменьшить одну из главных неэффективностей традиционных LLM — необходимость в тонкой настройке, если LLM просят сделать что-то, чему они не были обучены.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В соответствии с существующими сценариями параметры LLM настраиваются, после чего новые параметры остаются замороженными. Исследовательская группа представила модель, которая вносит изменения в систему весов при знакомстве с чем-то новым, что позволяет ей динамически подстраиваться под новые типы задач.

Обзор Transformer2. На этапе обучения мы настраиваем шкалы сингулярных значений весовых матриц, чтобы сформировать набор «экспертных» векторов, каждый из которых специализируется на одном типе задач. В фазе вывода принимается двухпроходный процесс, где первый применяет эксперт, специализирующийся на конкретной задаче, а второй генерирует ответ.
Обзор Transformer2. На этапе обучения мы настраиваем шкалы сингулярных значений весовых матриц, чтобы сформировать набор «экспертных» векторов, каждый из которых специализируется на одном типе задач. В фазе вывода принимается двухпроходный процесс, где первый применяет эксперт, специализирующийся на конкретной задаче, а второй генерирует ответ.
https://arxiv.org/abs/2501.06252
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Чтобы позволить LLM осуществлять динамическую настройку, исследователи разделили ответ на задачу на два этапа: первый включает в себя анализ запроса и определение того, что потребуется для обеспечения хорошего ответа. Второй этап включает в себя корректировку системы весов, которая помогает сосредоточить усилия на том, что приведет к ответу.

Система весов использует математический процесс под названием Singular Value Decomposition, чтобы определить, какие части собственной системы искусственного интеллекта наиболее важны для предоставления наилучшего ответа. Для создания шагов, необходимых для управления поведением ИИ, применяется обучение с подкреплением.

Во время умозаключений (это часть системы, участвующая в создании ответов на первоначальный запрос) система использует три основные стратегии для достижения своих целей: одна основана на подсказке, другая служит классификатором, а третья применяет процесс адаптации, когда модель ИИ обучается на ограниченном обучающем наборе. После адаптации LLM продолжает работать так же, как и другие LLM.