Ученые из лаборатории ИИ T-Bank AI Research разработали научный метод, с помощью которого можно вовремя заметить и скорректировать ошибки, допущенные искусственным интеллектом во время вычислений. Такое научное открытие может стать первым шагом на пути к более прозрачным, точным и понятным алгоритмам, что особенно важно при внедрении ИИ в критически важные сферы.
Российские ученые разработали метод, который позволяет понять, как ИИ принимает решения на разных этапах вычислений
- SAE Match — сопоставление концепций с разными слоями LLM (прим. редакции TehcInsider)
В чем заключается суть разработки
Область интерпретируемости ИИ, к которой относится метод SAE Match, помогает делать работу искусственного интеллекта более понятной для пользователя.
Современные языковые модели состоят из нескольких слоев, каждый из которых использует результат предыдущего — это позволяет модели улучшать свои предсказания слой за слоем. Однако иногда цепочка «ломается» и модель выдает неверную или оскорбительную информацию.
Раньше метода, с помощью которого можно было бы отследить момент «поворота не туда», не существовало. SAE Match стал тем инструментом, который помогает отслеживать признаки, которые остаются неизменными на нескольких слоях сети, и заглядывать внутрь модели, чтобы отследить, как меняются концепции от слоя к слою Эксперименты, проведенные на ряде моделей, подтвердили, что метод делает поведение ИИ более предсказуемым и позволяет контролировать процесс генерации текста.

Преимущества и уникальность метода SAE Match
Помимо того, что метод позволяет упростить анализ работы искусственного интеллекта и сделать его более предсказуемым, он также облегчает работу небольшим командам, у которых нет возможности дополнительно обучать модель и обрабатывать большие наборы данных.
Кроме того, ученые считают, что благодаря наработкам, полученным с помощью SAE Match, пользователи станут больше доверять искусственному интеллекту, а ученые получат простор для исследований и создания более быстрых и качественных ИИ моделей.
Результаты исследования будут презентованы во время конференции по обучению представлениям, которая пройдет в Сингапуре с 24 по 28 апреля 2025. Событие — одна из главных конференций в области машинного обучения и искусственного интеллекта уровня А*.