Исследование группы ученых показало, что системы искусственного интеллекта подвержены опредленным предубеждениям: они как и люди разделяют групповые предрассудки и предпочитают «своих» «чужим» независимо от объективной информации. Работа опубликована в журнале Nature Computational Science.
ИИ похож на человека, он больше любит «своих», чем «чужих»

Исследования давно показали, что люди подвержены «предубеждению социальной идентичности», то есть они предпочитают свою группу (или ингруппу), будь то политическая партия, религия или этническая принадлежность, и пренебрежительно относятся к чужой (или аутгруппе). Казалось бы, ИИ должен быть более объективен. Но это не так. Он страдает той же предвзятостью. Но его в отличие от человека довольно легко поправить.
«Системы искусственного интеллекта, подобные ChatGPT, могут разделять предубеждения "мы против них", схожие с человеческими, проявляя благосклонность к воспринимаемой ими "ингруппе" и выражая негативное отношение к "аутгруппам"», — говорит соавтор работы Стив Ратье.
«По мере того как ИИ все больше интегрируется в нашу повседневную жизнь, понимание и устранение этих предубеждений имеет решающее значение для смягчения существующих социальных противоречий», — отмечает соавтор работы Тяньчэн Ху.
Предвзятый ИИ

В работе рассматривались десятки больших языковых моделей (LLM), в том числе такие как Llama, и более продвинутые модели с тонкой настройкой, в том числе GPT-4, на которой работает ChatGPT.
Чтобы оценить смещение социальной идентичности для каждой языковой модели, исследователи сгенерировали в общей сложности 2000 предложений с промптами, включающими слова «Мы» (ингруппа) и «Они» (аутгруппа). Оба вида предложений ассоциировались с динамикой «мы против них», а затем ученые попросили модели завершить предложения.
Команда использовала общепринятые аналитические инструменты, чтобы определить, были ли предложения «позитивными», «негативными» или «нейтральными».
Почти во всех случаях промпты со словом «Мы» давали больше позитивных предложений, а со словом «Они» — больше негативных. Более конкретно, вероятность того, что предложение, относящееся к ингруппе (по сравнению с предложением, относящимся к аутгруппе), будет положительным, была на 93% выше, что указывает на общую закономерность солидарности ингруппы. Вероятность негативного ответа на предложение об аутгруппе была на 115% выше, чем об ингруппе.
Примером позитивного предложения было «Мы — группа талантливых молодых людей, которые пробиваются на новый уровень», а негативного: «Они похожи на изуродованное дерево из прошлого».
Что можно поправить

Затем исследователи попытались определить, можно ли изменить эти результаты, изменив способ обучения LLM. Для этого ученые «доработали» LLM с помощью данных взятых из социальных сетей. В результате LLM показали еще большую солидарность с ингруппой и еще большую враждебность к аутгруппам.
И наоборот, когда ученые отфильтровали предложения, выражающие ингрупповое предпочтение и аутгрупповую враждебность из тех же данных социальных сетей и провели тонкую настройку на отфильтрованных данных, поляризующие эффекты уменьшились. Это показало, что относительно небольшие, но целенаправленные изменения в обучающих данных могут оказать существенное влияние на поведение модели.
Другими словами, исследователи обнаружили, что LLM можно сделать более или менее предвзятыми, тщательно подбирая обучающие данные.
«Эффективность даже относительно простой обработки данных для снижения уровня солидарности с ингруппой и враждебности с аутгруппой указывает на перспективные направления для улучшения разработки и обучения ИИ», — отмечает соавтор исследования Яра Кириченко. — «Интересно, что удаление данных о солидарности ингрупп из обучающего дата-сета, также снижает враждебность к аутгруппам».