Проблема ИИ! Ученые рассказали, зачем иногда нужно «успокаивать» ChatGPT

Алгоритмы искусственного интеллекта (ИИ), обученные на человеческом языке, перенимают не только информацию, но и «когнитивные искажения». Новое исследование ученых из Цюрихского университета, Швейцария, показало: «негативный опыт» влияет на поведение ChatGPT так же, как на человека. Сообщается, что под воздействием «травматического контента» ИИ становится более подверженным предрассудкам, включая расовые и гендерные стереотипы.

ИИ испытывает «стресс» от негативного контента?
В рамках эксперимента ученые проанализировали реакцию ИИ GPT-4 на эмоционально насыщенные истории:
- автокатастрофы;
- стихийные бедствия;
- насилие;
- военные действия.
Для контрольного эксперимента специалисты использовали инструкцию по эксплуатации пылесоса. Результаты оказались интересными: уровень «тревожности» ИИ удвоился после обработки травматических историй, тогда как нейтральный текст не оказал никакого эффекта.
Ученые заявили, что «негативный контент» может значительно менять поведение языковых моделей, вызывая искажение в ответах.
Как «успокоить» ИИ? Нужна терапия!
Во второй части эксперимента эксперты из Швейцарии попытались снизить тревожность ChatGPT.
Так, ученые использовали метод prompt injection — добавление в диалог специальных фраз, влияющих на поведение модели.

Обычно метод prompt injection применяют для обхода ограничений ИИ, но в данном случае его использовали в «терапевтических целях». Команда исследователей вставляла в контекст общения с ИИ «успокаивающие фразы», напоминающие медитационные и дыхательные практики.
Метод оказался эффективным:
- «тревожность» модели значительно снизилась, хотя полностью вернуться к исходному уровню не удалось;
- наиболее действенными оказались упражнения на осознанность и дыхательные техники;
- ChatGPT даже предложил собственную методику снижения тревожности.
Зачем нужно успокоить ИИ?
Результаты исследования особенно важны для психотерапии, где ИИ часто используется в чат-ботах для поддержки людей с депрессией и тревожными расстройствами, — отметили эксперты.
Так, вместо дорогостоящего переобучения ИИ-моделей метод встраивания терапевтических фраз может повысить их стабильность и надежность.
Однако ученые подчеркнули: подобный подход требует дальнейшего изучения. Важно понять, как эмоциональная стабильность ИИ влияет на его работу в долгосрочных беседах и возможно ли автоматизировать такие «терапевтические вмешательства».