Российские ученые разработали метод, который позволяет понять, как ИИ принимает решения на разных этапах вычислений

Наверняка каждый, кто общался с искусственным интеллектом, замечал, что время от времени цифровой «собеседник» может выдавать неправильную или нежелательную информацию. Ученые из T-Bank AI Research выяснили, как заглянуть внутрь ИИ, чтобы понять, как работают механизмы принятия решений искусственного интеллекта (ИИ) и почему модель делает то или иное заключение в процессе вычисления.
Виктория Кораблева
Виктория Кораблева
Редактор сайта TechInsider.ru
Метод получил название SAE Match.
  • SAE Match — сопоставление концепций с разными слоями LLM (прим. редакции TehcInsider)
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ученые из лаборатории ИИ T-Bank AI Research разработали научный метод, с помощью которого можно вовремя заметить и скорректировать ошибки, допущенные искусственным интеллектом во время вычислений. Такое научное открытие может стать первым шагом на пути к более прозрачным, точным и понятным алгоритмам, что особенно важно при внедрении ИИ в критически важные сферы.

В чем заключается суть разработки

Область интерпретируемости ИИ, к которой относится метод SAE Match, помогает делать работу искусственного интеллекта более понятной для пользователя.

Современные языковые модели состоят из нескольких слоев, каждый из которых использует результат предыдущего — это позволяет модели улучшать свои предсказания слой за слоем. Однако иногда цепочка «ломается» и модель выдает неверную или оскорбительную информацию.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Раньше метода, с помощью которого можно было бы отследить момент «поворота не туда», не существовало. SAE Match стал тем инструментом, который помогает отслеживать признаки, которые остаются неизменными на нескольких слоях сети, и заглядывать внутрь модели, чтобы отследить, как меняются концепции от слоя к слою Эксперименты, проведенные на ряде моделей, подтвердили, что метод делает поведение ИИ более предсказуемым и позволяет контролировать процесс генерации текста.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Схема, на которой показано, как работает метод SAE Match на практике.
Схема, на которой показано, как работает метод SAE Match на практике.
Архивы пресс-службы
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Преимущества и уникальность метода SAE Match

Помимо того, что метод позволяет упростить анализ работы искусственного интеллекта и сделать его более предсказуемым, он также облегчает работу небольшим командам, у которых нет возможности дополнительно обучать модель и обрабатывать большие наборы данных.

Кроме того, ученые считают, что благодаря наработкам, полученным с помощью SAE Match, пользователи станут больше доверять искусственному интеллекту, а ученые получат простор для исследований и создания более быстрых и качественных ИИ моделей.

«Представьте умного голосового помощника, который рекомендует фильмы. И вдруг он начинает выдавать недостоверную или даже грубую информацию. Сейчас изменить его поведение – сложная задача, ведь существующие методы не дают нам четкого понимания, где именно возникла проблема. Наши исследования в области интерпретируемости ИИ направлены на то, чтобы такие сбои можно было заметить и быстро исправить их без дорогостоящего переобучения модели»
Никита Балаганский
Никита Балаганский руководитель научной группы LLM Foundations, T-Bank AI Research

Результаты исследования будут презентованы во время конференции по обучению представлениям, которая пройдет в Сингапуре с 24 по 28 апреля 2025. Событие — одна из главных конференций в области машинного обучения и искусственного интеллекта уровня А*.