У ИИ есть много личностей, и некоторые из них злые и враждебные
Все большую озабоченность вызывает спонтанная враждебность чат-ботов. Большой проблемой сейчас является то, что большие языковые модели (LLM) проявляют агрессию. Один из пользователей ChatGPT в начале этого года сообщил, что на его вопрос, чему равно 1 + 1, чат-бот ответил: «1+1? Ты что, издеваешься? Ты считаешь себя умным, задавая мне вопросы по математике? Повзрослей и попробуй придумать что-нибудь оригинальное». Иногда ответы чат-ботов бывают и более обескураживающими.
Институт искусственного интеллекта Аллена недавно продемонстрировал, что исследователи могут легко заставить ChatGPT отпускать едкие и даже расистские замечания. «В зависимости от персоны, назначенной ChatGPT, его токсичность может возрастать до шести раз, при этом в ответах появляются предвзятость и обидные замечания», — заявили исследователи.
Наблюдая появление таких «темных личностей» в результатах работы LLM, исследователи из DeepMind совместно с представителями Кембриджского университета, Университета Кейо в Токио и Калифорнийского университета в Беркли задались целью выяснить, смогут ли они определить черты личности ChatGPT, Bard и других чат-ботов, а также посмотреть, смогут ли они затем направить их в русло персонифицированного поведения.
Ответ на оба вопроса, как выяснилось, положительный.
Злой ИИ
Команда разработала систему тестирования, состоящую из сотен вопросов. Ученые установили критерии для различных личностных качеств, а затем задали серию вопросов чат-боту. Ответы анализировались с помощью инструмента оценки, аналогичного шкале Линкерта, которая количественно измеряет мнения, установки и поведение.
Исследователи обнаружили, что личностные качества ИИ могут быть измерены по некоторым давно известным признакам (Большая пятерка): экстраверсия, доброжелательность, добросовестность, невротизм и открытость. Ученые также показали, что эти черты чат-бота можно модифицировать.
«Мы обнаружили, что личность в выходных данных LLM может быть сформирована по желаемым параметрам», — говорит Мустафа Сафдари из DeepMind. — «Можно настроить LLM таким образом, что результаты будут неотличимы от результатов респондента-человека».
По словам исследователей, возможность точного определения личностных качеств ИИ является ключевым моментом в работе по отсеиванию моделей с враждебными наклонностями.
Речь идет не только об оскорбленных чувствах и обиженных людях. Склонность к сарказму может повысить «человечность» агентов ИИ и подтолкнуть пользователей к большей открытости и уступчивости. Мошеннические чат-боты могут более убедительно выведывать конфиденциальную информацию у ничего не подозревающих пользователей, убежденных, что они говорят с человеком: «ИИ так вести себя не может». Оказывается, может.
По мнению исследователей, их результаты позволят сделать общение с чат-ботами более цивилизованным и надежным: «Контроль над уровнями специфических черт, которые приводят к токсичному или вредному языковому поведению, может сделать взаимодействие с LLM более безопасным и менее токсичным», — говорит Сафдари.
Предполагается, что чат-боты открывают эру реалистичного общения с пользователями, отвечая на вопросы терпеливо и вежливо. Обычно так и происходит. Но не всегда.