Чат-боты будут искать научные статьи и готовить их краткое резюме

Голландский издательский гигант Elsevier выпустил интерфейс ИИ на базе ChatGPT для некоторых пользователей своей базы данных Scopus. Британская компания Digital Science объявила о закрытом тестировании ИИ-помощника на базе большой языковой модели (LLM) для своей базы данных Dimensions. Американская компания Clarivate заявила, что она также работает над внедрением LLM в свою базу данных Web of Science.
Чат-боты будут искать научные статьи и готовить их краткое резюме
Чат-боты, такие как ChatGPT, связываются с научными базами данных для поиска статей. Gabby Jones/Bloomberg via Getty

Ориентироваться в море научных публикаций с каждым годом все трудней и трудней. Может быть, помогут чат-боты?

Чат-боты на базе искусственного интеллекта, появившиеся в поисковых системах, такие как Bard от Google и Bing от Microsoft могут изменить научный поиск. 1 августа голландский издательский гигант Elsevier выпустил интерфейс ИИ на базе ChatGPT для некоторых пользователей своей базы данных Scopus, а британская компания Digital Science объявила о закрытом тестировании помощника ИИ на базе большой языковой модели (LLM) для своей базы данных Dimensions. Американская компания Clarivate заявила, что она также работает над внедрением LLM в свою базу данных Web of Science.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

LLM для научного поиска — не новинка: такие компании, как Elicit, Scite и Consensus, уже имеют подобные системы ИИ, которые помогают обобщать результаты исследований в той или иной области или выявлять лучшие исследования, опираясь на бесплатные научные базы данных или (в случае Scite) на доступ к платным научным статьям через партнерство с издательствами. Теперь и компании, владеющие крупными собственными базами данных научных рефератов и ссылок, присоединяются к работе с ИИ.

Чат-бот компании Elsevier, названный Scopus AI и запущенный в пилотном режиме, задуман как инструмент, помогающий исследователям быстро получить краткое изложение незнакомых научных тем, говорит Максим Хан, руководитель Elsevier в Лондоне, курировавший разработку инструмента. В ответ на вопрос, заданный на естественном языке, бот использует версию LLM GPT-3.5 и выдает краткое резюме по теме исследования с указанием ссылок и дополнительных вопросов для изучения.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
В ответ на текстовый вопрос Scopus AI выдает беглое изложение темы исследования, а также соответствующие ссылки.
В ответ на текстовый вопрос Scopus AI выдает беглое изложение темы исследования, а также соответствующие ссылки.
Scopus AI

Недостатком LLM для поиска — особенно научного — является их ненадежность. LLM не понимают текст, который они создают, они складывают слова, которые стилистически правдоподобны. Их результаты могут содержать фактические ошибки и погрешности, и, как быстро выяснили ученые, они могут придумывать несуществующие ссылки.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Поэтому искусственный интеллект Scopus ограничен: ему предлагается сгенерировать ответ только на основе пяти или десяти рефератов исследований. ИИ не находит эти рефераты самостоятельно: скорее, после того как пользователь вводит запрос, обычная поисковая система выдает их как релевантные, поясняет Хан.

Поддельные факты

Многие другие поисковые системы с искусственным интеллектом используют аналогичную стратегию, отмечает Аарон Тэй, библиотекарь Сингапурского университета управления, который следит за поисковыми инструментами с искусственным интеллектом. Он говорит: «LLM все еще может галлюцинировать и выдумывать».

Компания Elsevier ограничила возможности своего ИИ-продукта поиском только статей, опубликованных после 2018 года, потребовала от чат-бота обязательно приводить цитаты в своем ответе, избегать небезопасных или вредоносных запросов и сообщать, если в полученных рефератах нет релевантной информации. Это не позволяет полностью избежать ошибок, но сводит их к минимуму. Elsevier также уменьшила непредсказуемость своего ИИ, выбрав низкий уровень «температуры» бота — показатель того, как часто он отклоняется от наиболее правдоподобных слов в своем ответе.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В настоящее время этот инструмент распространяется только среди 15 000 пользователей, т.е. среди подписчиков Scopus, а остальным исследователям предлагается связаться с Elsevier, если они хотят попробовать его в действии. Компания заявляет, что ожидает полного запуска в начале 2024 года.

Полнотекстовый анализ

Также 1 августа компания Digital Science объявила о внедрении ИИ-помощника для своей большой научной базы данных Dimensions, пока только для избранных бета-тестеров. Как и в случае со Scopus AI, после того как пользователь введет свой вопрос, поисковая система сначала найдет соответствующие статьи, а затем модель Open AI GPT сгенерирует краткий обзор рефератов, получивших наивысший рейтинг. Dimensions также использует LLM для предоставления более подробной информации о соответствующих работах, включая краткие резюме.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Кристиан Херцог, директор по продуктам компании говорит, что компания надеется выпустить свой инструмент в более широком масштабе к концу года, а пока работает с учеными, финансистами и другими пользователями Dimensions, чтобы проверить, в каких случаях LLM может быть полезен: «Речь идет о постепенном освоении новой технологии и формировании доверия».

Тэй говорит, что с нетерпением ждет появления инструментов, использующих LLM в полном тексте статей, а не только в аннотациях. Такие сайты, как Elicit, уже позволяют пользователям использовать LLM для ответа на подробные вопросы о полном тексте статьи — если боты имеют к нему доступ, как в случае с некоторыми статьями, находящимися в открытом доступе, отмечает он.

В то же время Бар Вайнштейн, президент компании Clarivate, заявил, что компания «работает над добавлением поиска с использованием LLM в Web of Science», имея в виду стратегическое партнерство с компанией AI21 Labs, расположенной в Тель-Авиве (Израиль), о котором компании объявили в июне. Однако Вайнштейн не назвал сроков выпуска инструмента Web of Science на базе LLM.