ChatGPT учится обнаруживать фейковую информацию. Но до человека ему далеко

Ученый из Университета Висконсин-Стаут провел исследование, в котором он оценил способность наиболее известных на сегодняшний день Больших языковых моделей определять, является ли новостная заметка правдивой или фальшивой. Как показала работа, лучше всего отличает фейковые новости ChatGPT — эта модель смогла правильно классифицировать истинные или ложные сообщения в более чем 70% случаев.
ChatGPT учится обнаруживать фейковую информацию. Но до человека ему далеко
Unsplash

Мы ругаем ChatGPT за ошибки, а он оказывает неплохо отличает фейки. Правда пока хуже, чем человек.

В последних исследованиях, посвященных изучению Больших языковых моделей (LLM), в основном проверялась их способность создавать хорошо написанные тексты, определять специфические термины, писать эссе или другие документы, и создавать эффективный компьютерный код. Тем не менее, эти модели потенциально могут помочь человеку в решении других проблем реального мира, в том числе в определении фейковых новостей и дезинформации.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Кевин Матте Карамансьон из Университета Висконсин-Стаут провел исследование, в котором он оценил способность наиболее известных на сегодняшний день LLM определять, является ли новостная заметка правдивой или фальшивой.

«Мы оценили работу больших языковых моделей с помощью тестового набора из 100 проверенных фактов, полученных от независимых агентств по фактчекингу», — говорит Карамансьон. — «Мы предъявили модели каждую из этих новостей в контролируемых условиях, а затем отнесли их ответы к одной из трех категорий: Правда, Ложь и Частично Правда/Ложь. Эффективность моделей оценивалась по тому, насколько точно они классифицировали эти новости по сравнению с проверенными фактами, предоставленными независимыми агентствами».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Фейковые новости

Эффективность проверки новостей различными моделями
Эффективность проверки новостей различными моделями
Kevin Matthe Caramancion
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Дезинформация стала одной из важнейших проблем последних десятилетий, поскольку Интернет и социальные сети позволяют все быстрее распространять информацию независимо от того, правдива она или ложна. Поэтому многие ученые пытаются разработать более совершенные инструменты и платформы для проверки фактов.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Несмотря на множество созданных и опробованных на сегодняшний день инструментов, широко распространенная и надежная модель борьбы с дезинформацией все еще отсутствует. В рамках своего исследования Карамансион задался целью определить, могут ли существующие LLM эффективно решать эту глобальную проблему.

В частности, он оценил работу четырех LLM: Chat GPT-3.0 и Chat GPT-4.0 от Open AI, Bard/LaMDA от Google и Bing AI от Microsoft. Карамансьон показал этим моделям одни и те же новостные сообщения, предварительно прошедшие фактчекинг, а затем сравнил их способность определять, являются ли сообщения правдивыми, ложными или частично правдивыми/неправдивыми.

Карамансион говорит: «Мы обнаружили, что GPT-4.0 от OpenAI превзошла остальные модели, что указывает на прогресс в новых LLM. Однако все модели отстают от специалистов по фактчекингу. В этом сегодня человеку нет равных».

Исследователь говорит, что его работа подчеркивает необходимость дальнейшего совершенствования этих моделей и объединения их возможностей с работой специалистов по фактчекингу, если мы хотим, чтобы они применялись для проверки фактов.