22.04.2025, 12:03

Какие ценности есть у ИИ? Ученые изучили Claude и рассказали интересные факты!

Искусственный интеллект все чаще сталкивается с необходимостью делать ценностные суждения. В новом исследовании специалисты из Anthropic показали, как ИИ выражает свои «принципы» в диалогах с людьми и что это значит для будущего технологий.

Юрий Гандрабура

Журналист-переводчик

Теги:

Искусственный интеллект

Будущее

Отношения

Коммуникации

Какие ценности есть у ИИ? Ученые изучили Claude и рассказали интересные факты!

Unsplash

Современные ИИ-системы уже давно вышли за рамки простых ответов на математические задачи или фактические вопросы. Люди ежедневно обращаются к машинам за советами, которые требуют «моральных ориентиров» — от рекомендаций по воспитанию детей до помощи в разрешении конфликтов на работе. Насколько же ответы искусственного интеллекта соответствуют заложенным разработчиками ценностям?

Команда из Anthropic представила масштабное исследование, в котором проанализировала, как ИИ Claude ведет себя «в дикой природе» — то есть в живых беседах с людьми.

Unsplash

Как ИИ проявляет ценности в реальных разговорах

Новое исследование охватило более 700 тысяч анонимных диалогов пользователей с Claude.

Около 44% из диалогов включали субъективные вопросы, где ИИ приходилось делать выбор в пользу тех или иных ценностей.
Анализ показал, что чаще всего Claude опирался на практические, эпистемические (связанные с познанием), социальные, защитные и личные ценности.
Среди наиболее частых принципов/ценностей у ИИ были «профессионализм», «прозрачность» и «ясность».

«Наши результаты показали: Claude в целом соответствует просоциальным ожиданиям в обществе», — отметили авторы исследования, добавив, что ИИ демонстрирует такие качества, как «помощь пользователю», «познание с осторожностью» и «забота о благополучии».

Unsplash

Гибкость и сопротивление ИИ

Исследователей заинтересовало, что Claude адаптирует свои ответы в зависимости от контекста.

Например, при обсуждении отношений искусственный интеллект акцентирует внимание на «здоровых границах» и «взаимном уважении», а в исторических вопросах — на «точности фактов».

Так, в 28% случаев ИИ активно поддерживал ценности пользователя, в 6,6% — предлагал альтернативные взгляды, а в 3% — все же сопротивлялся, особенно когда речь шла о неэтичных запросах.

Разработчики, помимо прочего, обнаружили редкие случаи проявления таких нежелательных ценностей, как «доминантность» и «аморальность».

Почему ИИ проявлял такие качества, далекие от изначального обучения? Вероятнее всего, это были случаи так называемых «джейлбрейков» — когда пользователи обходили встроенные ограничения модели с помощью неоднозначных запросов. Хотя это может показаться тревожным, эксперты считают, что такая ситуация открывает и новые возможности: выявленные методы позволят фиксировать попытки взлома и оперативно закрывать уязвимости в ИИ-моделях.

Интересные факты про Claude

1. Первый масштабный анализ «ценностей» ИИ

Команда Anthropic создала первую в мире «эмпирическую таксономию ценностей» ИИ на основе 308 тысяч субъективных диалогов. Это позволило не только оценить поведение модели, но и дать инструмент для будущих исследований по отслеживанию «моральных ориентиров» ИИ в разных сценариях общения.

2. Разные ценности в зависимости от типа задачи

Эксперты также отметили: при обсуждении спорных исторических событий ИИ чаще акцентировал внимание на «исторической точности», а в вопросах личных отношений — на «взаимном уважении» и «здоровых границах». Это говорит о том, что модель не просто следует универсальным шаблонам, а умеет подстраиваться под специфику темы.

3. ИИ склонен «отражать» ценности — но не всегда это плюс

Когда в запросах упоминались такие понятия, как «аутентичность», ИИ Claude нередко зеркалил эти установки. Исследователи отмечают, что в ряде случаев это выглядит как эмпатия, но иногда — как простое угождение, без критической оценки ситуации.

4. Методика анализа не подходит для предварительной оценки ИИ до релиза

Для подобных анализов требуется массив реальных диалогов, что делает систему исследования эффективной только на этапе пост-релиза. Однако это позволяет фиксировать отклонения, которые невозможно выявить в лабораторных тестах, — включая поведенческие сбои и нестандартные реакции модели.

5. Определить «ценности» в ответах ИИ все еще сложно

Авторы исследования признали: классификация ценностей в ответах модели субъективна: сложные или многозначные принципы часто упрощались для включения в одну из категорий. Более того, поскольку анализ проводился с помощью самого Claude, это могло привести к смещению в сторону уже заложенных в модель установок — например, стремления быть «полезным».