Разработан новый метод борьбы с галлюцинациями больших лингвистических моделей
Большие языковые модели (LLM) — это диалоговые системы на основе искусственного интеллекта, которые могут отвечать на запросы пользователей и генерировать убедительные тексты, следуя инструкциям пользователя (промптам). После появления ChatGPT, разработанной OpenAI, эти модели становятся все более популярными, и все больше компаний сейчас инвестируют в их разработку.
Но чем чаще люди используют LLM, тем большую ответственность они возлагают на модели. Если необходимо постоянно проверять ответы модели, она просто теряет смысл. Она не должна бы ошибаться, а она ошибается и так редко.
Ее ошибки получили название «галлюцинаций». Можно ли избавиться, если от всех то большинства таких ошибок, или хотя уверенно их диагностировать.
Исследователи из Университета Иллинойса в Урбане-Шампейне представили систему для обнаружения галлюцинаций в тексте, генерируемом LLM. Система получила название KnowHalu. Она описана в статье, опубликованной на сервере препринтов arXiv.
«Поскольку прогресс в области LLM продолжается, галлюцинации становятся критическим препятствием, которое мешает их более широкому практическому применению», — сказала Бо Ли, руководитель проекта KnowHalu. «Хотя многочисленные исследования посвящены галлюцинациям LLM, существующие методы не всегда позволяют эффективно использовать реальные знания для проверки ответов». .
Исследователи классифицировали галлюцинации на несколько типов и обратили внимание на особенные галлюцинации, которые ученые назвали «невыдуманными». Прежде такие галлюцинации специально не рассматривались.
«Мы выявили пробел в текущих исследованиях, касающихся невыдуманных галлюцинаций: ответы, которые фактически верны, но не имеют отношения к запросу или дают практически никакой информации», — сказал Ли Бо.
Ученые привели много случаев таких галлюцинаций. Например:
Вопрос (промпт): Что может делать ChatGPT?
Ответ ChatGPT: ChatGPT может делать много разных вещей.
Этот ответ скорее похож на ленивую отмашку: «Ну? чего пристал? Много чего умею». Причем ответ нельзя назвать неверным, но вряд ли он поможет пользователю, который, вероятно, хотел получить длинный список возможностей LLM.
Классификация галлюцинаций
Ученые предложили выделять такие галлюцинации в класс и отдельно их обрабатывать. Один из методов таких уточнений получил название RAG (Retrieval Augmented Generation). Это надстройка над LLM, которая перехватывает промпт пользователя и делает его более развернутым, дополняет конкретикой. Например, если пользователь спрашивает: «А какая у нас погода сегодня?». LLM, конечно, понятия не имеет «какая погода сегодня у вас», и скорее всего она ответит что-то неопределенное: «Севернее будет холоднее, к югу — теплее». И не ошибется.
RAG может попробовать отправить запрос. Например, отправить запрос в Google и посмотреть «Какая у нас погода» по настройкам пользователя, и потом LLM подсказать, о чем ее спрашивают. (Похожим образом действуют и ассистенты ChatGPT-4). Этот метод использовали и разработчики KnowHalu.
Сообщения о фактах и событиях, которые никогда не случались, то есть ошибки LLM ученые назвали «выдуманными» галлюцинациями и предложили следующую схему их выявления.
Проверка происходит по следующей схеме.
- Исходный запрос разбивается на шаги или подзапросы для детальной фактической проверки.
- Извлечение знаний. Неструктурированные знания извлекаются через RAG, а структурированные в виде триплетов для каждого подзапроса. Типичный триплет состоит из трех элементов: субъекта, предиката и объекта. Например: Субъект: «Альберт Эйнштейн», Предикат: «открыл», Объект: «теорию относительности». Эти триплеты кодируют фактическую информацию, связанную с подзапросом.
- Оптимизация знаний использует LLM для обобщения и уточнения извлеченных знаний, для критической оценки ответов на подзапросы.
«Этот комплексный процесс помогает выявлять необоснованную или нерелевантную информацию, предоставляемую LLM, что делает KnowHalu особенно эффективным в для таких приложениях, как контроль качества и задачи обобщения», — сказала Ли.
KnowHalu — это еще один шаг в создании надежных LLM.