Разработан новый метод борьбы с галлюцинациями больших лингвистических моделей

Исследователи из Университета Иллинойса в Урбане-Шампейне представили систему для обнаружения галлюцинаций в тексте, генерируемом LLM. Система получила название KnowHalu
Разработан новый метод борьбы с галлюцинациями больших лингвистических моделей
Галлюцинация LLM. DALLE-3
Галлюцинации становятся едва ли не главным препятствием в развитии больших лингвистических моделей. Человек хочет использовать модели, но он не может доверять.

Большие языковые модели (LLM) — это диалоговые системы на основе искусственного интеллекта, которые могут отвечать на запросы пользователей и генерировать убедительные тексты, следуя инструкциям пользователя (промптам). После появления ChatGPT, разработанной OpenAI, эти модели становятся все более популярными, и все больше компаний сейчас инвестируют в их разработку.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Но чем чаще люди используют LLM, тем большую ответственность они возлагают на модели. Если необходимо постоянно проверять ответы модели, она просто теряет смысл. Она не должна бы ошибаться, а она ошибается и так редко.

Ее ошибки получили название «галлюцинаций». Можно ли избавиться, если от всех то большинства таких ошибок, или хотя уверенно их диагностировать.

Исследователи из Университета Иллинойса в Урбане-Шампейне представили систему для обнаружения галлюцинаций в тексте, генерируемом LLM. Система получила название KnowHalu. Она описана в статье, опубликованной на сервере препринтов arXiv.

«Поскольку прогресс в области LLM продолжается, галлюцинации становятся критическим препятствием, которое мешает их более широкому практическому применению», — сказала Бо Ли, руководитель проекта KnowHalu. «Хотя многочисленные исследования посвящены галлюцинациям LLM, существующие методы не всегда позволяют эффективно использовать реальные знания для проверки ответов». .

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Исследователи классифицировали галлюцинации на несколько типов и обратили внимание на особенные галлюцинации, которые ученые назвали «невыдуманными». Прежде такие галлюцинации специально не рассматривались.

«Мы выявили пробел в текущих исследованиях, касающихся невыдуманных галлюцинаций: ответы, которые фактически верны, но не имеют отношения к запросу или дают практически никакой информации», — сказал Ли Бо.

Галлюцинация LLM-2
Галлюцинация LLM-2
DALLE-3
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ученые привели много случаев таких галлюцинаций. Например:

Вопрос (промпт): Что может делать ChatGPT?

Ответ ChatGPT: ChatGPT может делать много разных вещей.

Этот ответ скорее похож на ленивую отмашку: «Ну? чего пристал? Много чего умею». Причем ответ нельзя назвать неверным, но вряд ли он поможет пользователю, который, вероятно, хотел получить длинный список возможностей LLM.

Классификация галлюцинаций

Типы галлюцинаций
Типы галлюцинаций
https://arxiv.org/abs/2404.02935
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ученые предложили выделять такие галлюцинации в класс и отдельно их обрабатывать. Один из методов таких уточнений получил название RAG (Retrieval Augmented Generation). Это надстройка над LLM, которая перехватывает промпт пользователя и делает его более развернутым, дополняет конкретикой. Например, если пользователь спрашивает: «А какая у нас погода сегодня?». LLM, конечно, понятия не имеет «какая погода сегодня у вас», и скорее всего она ответит что-то неопределенное: «Севернее будет холоднее, к югу — теплее». И не ошибется.

RAG может попробовать отправить запрос. Например, отправить запрос в Google и посмотреть «Какая у нас погода» по настройкам пользователя, и потом LLM подсказать, о чем ее спрашивают. (Похожим образом действуют и ассистенты ChatGPT-4). Этот метод использовали и разработчики KnowHalu.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Сообщения о фактах и событиях, которые никогда не случались, то есть ошибки LLM ученые назвали «выдуманными» галлюцинациями и предложили следующую схему их выявления.

Проверка происходит по следующей схеме.

  1. Исходный запрос разбивается на шаги или подзапросы для детальной фактической проверки.
  2. Извлечение знаний. Неструктурированные знания извлекаются через RAG, а структурированные в виде триплетов для каждого подзапроса. Типичный триплет состоит из трех элементов: субъекта, предиката и объекта. Например: Субъект: «Альберт Эйнштейн», Предикат: «открыл», Объект: «теорию относительности». Эти триплеты кодируют фактическую информацию, связанную с подзапросом.
  3. Оптимизация знаний использует LLM для обобщения и уточнения извлеченных знаний, для критической оценки ответов на подзапросы.

«Этот комплексный процесс помогает выявлять необоснованную или нерелевантную информацию, предоставляемую LLM, что делает KnowHalu особенно эффективным в для таких приложениях, как контроль качества и задачи обобщения», — сказала Ли.

KnowHalu — это еще один шаг в создании надежных LLM.