Современные ИИ-системы уже давно вышли за рамки простых ответов на математические задачи или фактические вопросы. Люди ежедневно обращаются к машинам за советами, которые требуют «моральных ориентиров» — от рекомендаций по воспитанию детей до помощи в разрешении конфликтов на работе. Насколько же ответы искусственного интеллекта соответствуют заложенным разработчиками ценностям?
Какие ценности есть у ИИ? Ученые изучили Claude и рассказали интересные факты!


Как ИИ проявляет ценности в реальных разговорах
Новое исследование охватило более 700 тысяч анонимных диалогов пользователей с Claude.
- Около 44% из диалогов включали субъективные вопросы, где ИИ приходилось делать выбор в пользу тех или иных ценностей.
- Анализ показал, что чаще всего Claude опирался на практические, эпистемические (связанные с познанием), социальные, защитные и личные ценности.
- Среди наиболее частых принципов/ценностей у ИИ были «профессионализм», «прозрачность» и «ясность».
- «Наши результаты показали: Claude в целом соответствует просоциальным ожиданиям в обществе», — отметили авторы исследования, добавив, что ИИ демонстрирует такие качества, как «помощь пользователю», «познание с осторожностью» и «забота о благополучии».

Гибкость и сопротивление ИИ
Исследователей заинтересовало, что Claude адаптирует свои ответы в зависимости от контекста.
Например, при обсуждении отношений искусственный интеллект акцентирует внимание на «здоровых границах» и «взаимном уважении», а в исторических вопросах — на «точности фактов».
Так, в 28% случаев ИИ активно поддерживал ценности пользователя, в 6,6% — предлагал альтернативные взгляды, а в 3% — все же сопротивлялся, особенно когда речь шла о неэтичных запросах.
Разработчики, помимо прочего, обнаружили редкие случаи проявления таких нежелательных ценностей, как «доминантность» и «аморальность».
Почему ИИ проявлял такие качества, далекие от изначального обучения? Вероятнее всего, это были случаи так называемых «джейлбрейков» — когда пользователи обходили встроенные ограничения модели с помощью неоднозначных запросов. Хотя это может показаться тревожным, эксперты считают, что такая ситуация открывает и новые возможности: выявленные методы позволят фиксировать попытки взлома и оперативно закрывать уязвимости в ИИ-моделях.
Интересные факты про Claude
- 1. Первый масштабный анализ «ценностей» ИИ
Команда Anthropic создала первую в мире «эмпирическую таксономию ценностей» ИИ на основе 308 тысяч субъективных диалогов. Это позволило не только оценить поведение модели, но и дать инструмент для будущих исследований по отслеживанию «моральных ориентиров» ИИ в разных сценариях общения.
- 2. Разные ценности в зависимости от типа задачи
Эксперты также отметили: при обсуждении спорных исторических событий ИИ чаще акцентировал внимание на «исторической точности», а в вопросах личных отношений — на «взаимном уважении» и «здоровых границах». Это говорит о том, что модель не просто следует универсальным шаблонам, а умеет подстраиваться под специфику темы.
- 3. ИИ склонен «отражать» ценности — но не всегда это плюс
Когда в запросах упоминались такие понятия, как «аутентичность», ИИ Claude нередко зеркалил эти установки. Исследователи отмечают, что в ряде случаев это выглядит как эмпатия, но иногда — как простое угождение, без критической оценки ситуации.
- 4. Методика анализа не подходит для предварительной оценки ИИ до релиза
Для подобных анализов требуется массив реальных диалогов, что делает систему исследования эффективной только на этапе пост-релиза. Однако это позволяет фиксировать отклонения, которые невозможно выявить в лабораторных тестах, — включая поведенческие сбои и нестандартные реакции модели.
- 5. Определить «ценности» в ответах ИИ все еще сложно
Авторы исследования признали: классификация ценностей в ответах модели субъективна: сложные или многозначные принципы часто упрощались для включения в одну из категорий. Более того, поскольку анализ проводился с помощью самого Claude, это могло привести к смещению в сторону уже заложенных в модель установок — например, стремления быть «полезным».