ChatGPT учится обнаруживать фейковую информацию. Но до человека ему далеко
В последних исследованиях, посвященных изучению Больших языковых моделей (LLM), в основном проверялась их способность создавать хорошо написанные тексты, определять специфические термины, писать эссе или другие документы, и создавать эффективный компьютерный код. Тем не менее, эти модели потенциально могут помочь человеку в решении других проблем реального мира, в том числе в определении фейковых новостей и дезинформации.
Кевин Матте Карамансьон из Университета Висконсин-Стаут провел исследование, в котором он оценил способность наиболее известных на сегодняшний день LLM определять, является ли новостная заметка правдивой или фальшивой.
«Мы оценили работу больших языковых моделей с помощью тестового набора из 100 проверенных фактов, полученных от независимых агентств по фактчекингу», — говорит Карамансьон. — «Мы предъявили модели каждую из этих новостей в контролируемых условиях, а затем отнесли их ответы к одной из трех категорий: Правда, Ложь и Частично Правда/Ложь. Эффективность моделей оценивалась по тому, насколько точно они классифицировали эти новости по сравнению с проверенными фактами, предоставленными независимыми агентствами».
Фейковые новости
Дезинформация стала одной из важнейших проблем последних десятилетий, поскольку Интернет и социальные сети позволяют все быстрее распространять информацию независимо от того, правдива она или ложна. Поэтому многие ученые пытаются разработать более совершенные инструменты и платформы для проверки фактов.
Несмотря на множество созданных и опробованных на сегодняшний день инструментов, широко распространенная и надежная модель борьбы с дезинформацией все еще отсутствует. В рамках своего исследования Карамансион задался целью определить, могут ли существующие LLM эффективно решать эту глобальную проблему.
В частности, он оценил работу четырех LLM: Chat GPT-3.0 и Chat GPT-4.0 от Open AI, Bard/LaMDA от Google и Bing AI от Microsoft. Карамансьон показал этим моделям одни и те же новостные сообщения, предварительно прошедшие фактчекинг, а затем сравнил их способность определять, являются ли сообщения правдивыми, ложными или частично правдивыми/неправдивыми.
Карамансион говорит: «Мы обнаружили, что GPT-4.0 от OpenAI превзошла остальные модели, что указывает на прогресс в новых LLM. Однако все модели отстают от специалистов по фактчекингу. В этом сегодня человеку нет равных».
Исследователь говорит, что его работа подчеркивает необходимость дальнейшего совершенствования этих моделей и объединения их возможностей с работой специалистов по фактчекингу, если мы хотим, чтобы они применялись для проверки фактов.
Мы ругаем ChatGPT за ошибки, а он оказывает неплохо отличает фейки. Правда пока хуже, чем человек.