ИИ не может отличить текст, написанный человеком, от текста, созданного ИИ

Ученые Стэнфордского университета показали, что существующие сегодня системы ИИ, которые должны распознавать тексты, созданные машиной, работают крайне ненадежно. По крайней мере, 20% текстов, написанных человеком, все существующие на сегодня детекторы считают созданными машиной. Это очень опасно, поскольку ведет к обвинениям людей в плагиате. Самой уязвимой группой оказываются студенты.
ИИ не может отличить текст, написанный человеком, от текста, созданного ИИ
Unsplash.com

Объем текстов, созданных ИИ, становится настолько большим, что вопрос о «создателе» перестает быть чисто теоретическим. Если не найти решение, могут пострадать люди. И в первую очередь студенты.

После громкого запуска ChatGPT не менее семи разработчиков предложили в качестве ответной меры детекторы ИИ. По словам разработчиков таких детекторов, ИИ способен определить, был ли контент на английском языке написан другим ИИ. Эти новые алгоритмы предлагаются преподавателям, журналистам и другим людям в качестве инструмента для выявления плагиата и дезинформации.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Но, согласно новой работе ученых из Стэнфорда, есть одна (очень большая) проблема: детекторы не особенно надежны. Хуже того, они особенно ненадежны, когда автор (человек) не является носителем английского языка.

Цифры выглядят обескураживающе. Хотя детекторы были «почти безупречны» при оценке эссе, написанных американскими восьмиклассниками, они в среднем классифицировали более 50% эссе TOEFL (61,22%), написанных студентами, не являющимися носителями английского языка, как сгенерированные ИИ (TOEFL — это сокращение от Test of English as a Foreign Language). Причем все семь детекторов единогласно определили 18 из 91 эссе студентов TOEFL (19%) как сгенерированные ИИ, а 89 из 91 эссе TOEFL (97%) были отмечены хотя бы одним из детекторов, как написанный ИИ.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«Все сводится к тому, как детекторы определяют ИИ», — говорит Джеймс Зоу, профессор биомедицины в Стэнфордском университете, старший автор исследования. — «Они обычно выставляют оценки на основе метрики, известной как "перплексия", которая коррелирует со сложностью письма — то, в чем неносители языка, естественно, будут отставать от своих американских коллег".

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Зоу и соавторы отмечают, что показатели неносителей языка обычно ниже по таким общим показателям сложности, как лексическое разнообразие, синтаксическая сложность и грамматическая сложность.

«Эти цифры ставят серьезные вопросы об объективности детекторов ИИ и повышают вероятность того, что студенты и работники иностранного происхождения могут быть несправедливо обвинены или, что еще хуже, наказаны за плагиат», — говорит Зоу.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ученый отмечает, что такие детекторы довольно легко обмануть с помощью так называемого «оперативного инжиниринга»: генеративный ИИ можно попросить «переписать» эссе, например, чтобы включить в него более сложные формулировки. Студент, использующий ChatGPT для подготовки «своего» эссе, может потребовать у чат-бота: «Улучшить текст, используя литературный язык».

«Нынешние детекторы явно ненадежны и легко поддаются обману, а значит, мы должны быть очень осторожны, используя их в качестве основания при решении проблемы плагиата», — говорит Зоу.

Что делать дальше?

Unsplash.com
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Зоу предлагает несколько вариантов. В ближайшем будущем, по его словам, нам нужно избегать использования детекторов в образовательных учреждениях, особенно там, где есть большое количество людей, не являющихся носителями английского языка. Во-вторых, разработчики должны перейти от использования перплексии в качестве основной метрики к поиску более сложных методов или, возможно, начать применение водяных знаков, когда генеративный ИИ встраивает тонкие подсказки о своей идентичности в создаваемый им контент, и эти подсказки однозначно опознает детектор.

«В настоящее время детекторы слишком ненадежны, а ставки для студентов слишком высоки, чтобы доверять этим технологиям», — говорит Зоу.