Ученые научили ИИ искусству забывать. Теперь он сможет учиться постоянно

Группа исследователей ИИ из Университета Альберты, Канада показала, что современные искусственные нейросети, постепенно теряют способность к обучению, если не остановиться вовремя и продолжать подавать им все и новые данные. Ученые предложили решение, которое позволяет нейросети учиться непрерывно, как это делает человек: она должна забывать часть того, что узнала.
Ученые научили ИИ искусству забывать. Теперь он сможет учиться постоянно
Unsplash
Почему все известные нам модели имеют вот эти номера — GPT-2, GPT-3, GPT-4? Почему нельзя просто доучивать одну и ту же модель на новых данных? Оказывается, у обучения есть предел, после которого модель начинает деградировать. Но ведь человек учится не так. Он же не выпускает собственные новые доученные версии, а просто узнает новое и его использует. Можно ли бороться с таким серьезным недостатком ИИ-моделей? Оказывается, можно. Их просто надо научить забывать ненужное.

Группа исследователей ИИ из Университета Альберты, Канада показала, что современные искусственные нейросети, постепенно теряют способность к обучению, если не остановиться вовремя и продолжать подавать им все и новые данные. Ученые предложили решение, которое позволяет нейросети учиться непрерывно, как это делает человек: она должна забывать часть того, что узнала. Исследование опубликовано в журнале Nature.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

За последние несколько лет системы ИИ стали мейнстримом. Среди них есть большие языковые модели (LLM), которые выдают, казалось бы, разумные ответы чат-ботов. Но им всем не хватает одного — способности продолжать обучение по мере использования. Это не позволяет ИИ-моделям становиться точнее, например, разговаривая с пользователем.

Искусственные нейронные сети, методы глубокого обучения и алгоритм обратного распространения ошибки формируют основу современного машинного обучения и искусственного интеллекта.

a-c, В последовательности задач бинарной классификации с использованием изображений ImageNet (a) обычный алгоритм обратного распространения теряет пластичность при любом размере шага (b), в то время как алгоритмы непрерывного обратного распространения, L2-регуляризации и Shrink and Perturb (Сжатия и Возмущения) сохраняют пластичность, по-видимому, неограниченно долго (c). Все результаты усреднены по 30 прогонам; сплошные линии представляют среднее значение, а заштрихованные области соответствуют ±1 стандартной ошибке.
a-c, В последовательности задач бинарной классификации с использованием изображений ImageNet (a) обычный алгоритм обратного распространения теряет пластичность при любом размере шага (b), в то время как алгоритмы непрерывного обратного распространения, L2-регуляризации и Shrink and Perturb (Сжатия и Возмущения) сохраняют пластичность, по-видимому, неограниченно долго (c). Все результаты усреднены по 30 прогонам; сплошные линии представляют среднее значение, а заштрихованные области соответствуют ±1 стандартной ошибке.
https://www.nature.com/articles/s41586-024-07711-7
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Эти методы почти всегда используются в два этапа: один, на котором веса сети обновляются, и другой — при котором веса остаются постоянными, пока сеть используется. Это совсем не похоже на то, как учится человек, ведь он учится непрерывно, на тех данных которые он получает.

a. Пошагово растущая задача классификации изображений. b. Первоначально точность повышается за счет пошагового обучения по сравнению с сетью, обученной с нуля, но после 40 классов точность существенно снижается в базовой системе глубокого обучения, в меньшей степени — в системе обучения Shrink и Perturb и совсем не снижается в системе обучения на основе непрерывного обратного распространения. c, Количество единиц сети, которые активны менее 1 % времени, быстро увеличивается для базовой системы глубокого обучения, но в меньшей степени для систем Shrink and Perturb и непрерывного обратного распространения. d, Низкий стабильный ранг означает, что единицы сети не обеспечивают большого разнообразия; базовая система глубокого обучения теряет гораздо больше разнообразия, чем системы Shrink and Perturb (Сжатия и Возмущения) и непрерывного обратного распространения. Все результаты усреднены по 30 прогонам; сплошные линии представляют среднее значение, а заштрихованные области соответствуют ±1 стандартной ошибке.
a. Пошагово растущая задача классификации изображений. b. Первоначально точность повышается за счет пошагового обучения по сравнению с сетью, обученной с нуля, но после 40 классов точность существенно снижается в базовой системе глубокого обучения, в меньшей степени — в системе обучения Shrink и Perturb и совсем не снижается в системе обучения на основе непрерывного обратного распространения. c, Количество единиц сети, которые активны менее 1 % времени, быстро увеличивается для базовой системы глубокого обучения, но в меньшей степени для систем Shrink and Perturb и непрерывного обратного распространения. d, Низкий стабильный ранг означает, что единицы сети не обеспечивают большого разнообразия; базовая система глубокого обучения теряет гораздо больше разнообразия, чем системы Shrink and Perturb (Сжатия и Возмущения) и непрерывного обратного распространения. Все результаты усреднены по 30 прогонам; сплошные линии представляют среднее значение, а заштрихованные области соответствуют ±1 стандартной ошибке.
https://www.nature.com/articles/s41586-024-07711-7

До сих пор было неясно, работают ли методы глубокого обучения, если поставить их в такие «человеческие» условия, то есть обучать их не поэтапно, а непрерывно.Ученые показали, что в этом случае при стандартных методах глубокого обучения модели постепенно теряют пластичность. И возможности падают и ответы вырождаются, наступает так называемое «переобучение». Ученые показали такую потерю пластичности, используя классический набор картинок на сайте ImageNet.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Но ученые предложили неожиданное решение. Пластичность (то есть способность к обучению) сохраняется теми алгоритмами, которые постоянно вносят разнообразие в сеть.

Ученые назвали свой метод — алгоритм непрерывного обратного распространения. В этом случае небольшая часть наименее используемых параметров постоянно, случайным образом инициализируется, то есть нейросеть забывает значения части весов. Ученые считают, что подход, который фактически основан на постоянном забывании части накопленной информации, позволяет модели учиться непрерывно и не вырождаться.