Методом уже могут воспользоваться любые разработчики, чтобы улучшить работу своих ИИ-ассистентов и сделать шаг вперед в развитии отечественных технологий.
Российские ученые повысили безопасность и точность ответов искусственного интеллекта

В чем заключается суть разработки
Есть проблема — современные языковые модели, обучаясь на больших объемах данных, могут допускать ошибки при долгих тренировках. Исследователи из T-Bank AI Research предложили решение — использовать новый метод, похожий на Trust Region с небольшими изменениями, которые позволили влиять на обучение больших языковых моделей.
Во время экспериментов ученые протестировали новую методику на специальных метриках, которые оценили способность ИИ-моделей общаться вежливо, решать сложные задачи и эффективно обобщать знания. В результате тестов новый метод показал улучшение качества ответов ИИ на 10-15% по сравнению с классическими подходами. Кроме того, модели стали меньше путаться в сложных задачах и лучше следовать инструкциям от пользователя.
Ключевое отличие нового метода от традиционных подходов
Обычно, когда языковую модель пытаются обучить, например, вежливому поведению, она может отклоняться от изначальных настроек, из-за чего качество ее ответов может резко упасть. Другими словами — модель может «запутаться» на пути и начать генерировать только вежливые слова, не имеющие никакого смысла.
В научных кругах такое явление называют overoptimization — именно его и смогли преодолеть ученые. Специалисты предложили периодически обновлять «настройки по умолчанию» модели, чтобы ИИ мог отмечать ключевые «ориентиры» на своем пути и быстрее доходить до целевого ответа.
В отличие от стандартных подходов, где модель использует фиксированные начальные параметры, Trust Region предусматривает динамическое изменение этой опорной точки двумя способами с помощью «мягкого» и «жесткого» обновлений. Первое подразумевает небольшие изменения, которые незначительно применяются на каждом шаге обучения, а второе — обновление модели целиком с определенной периодичностью.
Разработка ученых может применяться как в создании ИИ-ассистентов и чат-ботов, так и в более серьезных сферах — от образования до медицины. Так, тексты, сгенерированные моделью с применением метода Trust Region, показали высокие результаты по пяти ключевым параметрам — точности, связности, стилю, логике рассуждений и информативности — по сравнению с результатам, полученными с использованием традиционных методов. Также благодаря новой методике модели стали меньше «зацикливаться» на случайных ошибках и избегать выдачи бессвязных текстов.
Результаты этого исследования уже получили признание в мировом научном сообществе и были представлены на одной из главных конференций в области обучения представлениям (ICLR) в Сингапуре.