Исследователи из Института машинного обучения ETH Zurich разработали метод, который дообучает большую языковую модель на основе ценности данных. Это дает выигрыш в точности особенно при ответе на запросы, относящиеся к специализированным областям знаний. Работа опубликована на сервере препринтов arXiv.
Новый алгоритм поможет сделать ответы ИИ более надежными и глубокими

«Наш алгоритм может извлечь из глубины модели именно те связи, которые с наибольшей вероятностью дадут правильный ответ», — объясняет соавтор работы Йонас Хюботтер. «Метод особенно подходит для компаний, ученых и других пользователей, которые хотят использовать общий ИИ в специализированной области, которая лишь частично охватывается обучающими данными», — добавляет соавтор работы Андреас Краузе.
Например, пользователи могут загружать свои локально хранящиеся данные в большую языковую модель (LLM), такую как Llama. Алгоритм SIFT (Selecting Informative data for Fine-Tuning) может использовать предоставленные дополнительные данные для оптимального дообучения модели.
Сначала оценка, потом — выдача

При обучении LLM разделяют языковую информацию в обучающих данных на части слов, так называемые токены. Токены оцифровываются и образуют многомерное векторное пространство, в котором близкие по смыслу слова оказываются в конечном счете «ближайшими соседями». Эти «ближайшие соседи» и используются при формировании выдачи. Но они не всегда имеют отношение к ответу на запрос. Иногда нужные данные лежат дальше и «ближайшими соседями» не являются.

Алгоритм SIFT использует другую метрику (А именно: угол между векторами запроса и данных определяет, насколько они близки по смыслу.) Алгоритм работает в двух режимах — дообучение и выдача. SIFT при дообучение меняет некоторые параметры (те которые относятся к дообучению) и механизмы внимания так, чтобы потом была возможность точно выбирать информацию, опираясь на запрос. Это позволяет в той специализированной области, по которой модель дообучалась, получать действительно хорошие ответы. Если мы представим, что контекстное окно — это лупа, то SIFT не просто увеличивает масштаб (как это бывает при простом расширении окна), а учит модель видеть через лупу именно нужные детали.
«В тестах со стандартными наборами данных мы использовали настройку SIFT, чтобы превзойти даже лучшие современные модели ИИ с моделями в 40 раз меньшего размера», — подчеркивает Хюботтер. Модель дообученная с помощью SIFT с 7 миллиардами параметром работала практически также точно, как модель без SIFT с 175 миллиардами параметров.
Неожиданно SIFT оказался полезен не только для ответов на конкретные запросы, но и для оценки самих данных. Как объясняет Краузе, «мы можем отслеживать, какие обогащающие данные выбирает SIFT. Они тесно связаны с вопросом и поэтому особенно актуальны для данной предметной области. Это можно использовать, например, в медицине, чтобы выяснить, какие лабораторные анализы или значения измерений важны для конкретного диагноза, а какие — менее значимы».