ИИ не может отличить текст, написанный человеком, от текста, созданного ИИ
После громкого запуска ChatGPT не менее семи разработчиков предложили в качестве ответной меры детекторы ИИ. По словам разработчиков таких детекторов, ИИ способен определить, был ли контент на английском языке написан другим ИИ. Эти новые алгоритмы предлагаются преподавателям, журналистам и другим людям в качестве инструмента для выявления плагиата и дезинформации.
Но, согласно новой работе ученых из Стэнфорда, есть одна (очень большая) проблема: детекторы не особенно надежны. Хуже того, они особенно ненадежны, когда автор (человек) не является носителем английского языка.
Цифры выглядят обескураживающе. Хотя детекторы были «почти безупречны» при оценке эссе, написанных американскими восьмиклассниками, они в среднем классифицировали более 50% эссе TOEFL (61,22%), написанных студентами, не являющимися носителями английского языка, как сгенерированные ИИ (TOEFL — это сокращение от Test of English as a Foreign Language). Причем все семь детекторов единогласно определили 18 из 91 эссе студентов TOEFL (19%) как сгенерированные ИИ, а 89 из 91 эссе TOEFL (97%) были отмечены хотя бы одним из детекторов, как написанный ИИ.
«Все сводится к тому, как детекторы определяют ИИ», — говорит Джеймс Зоу, профессор биомедицины в Стэнфордском университете, старший автор исследования. — «Они обычно выставляют оценки на основе метрики, известной как "перплексия", которая коррелирует со сложностью письма — то, в чем неносители языка, естественно, будут отставать от своих американских коллег".
Зоу и соавторы отмечают, что показатели неносителей языка обычно ниже по таким общим показателям сложности, как лексическое разнообразие, синтаксическая сложность и грамматическая сложность.
«Эти цифры ставят серьезные вопросы об объективности детекторов ИИ и повышают вероятность того, что студенты и работники иностранного происхождения могут быть несправедливо обвинены или, что еще хуже, наказаны за плагиат», — говорит Зоу.
Ученый отмечает, что такие детекторы довольно легко обмануть с помощью так называемого «оперативного инжиниринга»: генеративный ИИ можно попросить «переписать» эссе, например, чтобы включить в него более сложные формулировки. Студент, использующий ChatGPT для подготовки «своего» эссе, может потребовать у чат-бота: «Улучшить текст, используя литературный язык».
«Нынешние детекторы явно ненадежны и легко поддаются обману, а значит, мы должны быть очень осторожны, используя их в качестве основания при решении проблемы плагиата», — говорит Зоу.
Что делать дальше?
Зоу предлагает несколько вариантов. В ближайшем будущем, по его словам, нам нужно избегать использования детекторов в образовательных учреждениях, особенно там, где есть большое количество людей, не являющихся носителями английского языка. Во-вторых, разработчики должны перейти от использования перплексии в качестве основной метрики к поиску более сложных методов или, возможно, начать применение водяных знаков, когда генеративный ИИ встраивает тонкие подсказки о своей идентичности в создаваемый им контент, и эти подсказки однозначно опознает детектор.
«В настоящее время детекторы слишком ненадежны, а ставки для студентов слишком высоки, чтобы доверять этим технологиям», — говорит Зоу.
Объем текстов, созданных ИИ, становится настолько большим, что вопрос о «создателе» перестает быть чисто теоретическим. Если не найти решение, могут пострадать люди. И в первую очередь студенты.