03.11.2023, 19:08

ChatGPT не справился с тестом Тьюринга

Ученые из Университета Сан-Диего проверили может ли ChatGPT-4 пройти тест Тьюринга. То есть, может ли чат-бот настолько убедительно прикинуться человеком в разговоре, что человек-собеседник примет чат-бот за человека. ChatGPT-4 сумел обмануть своих собеседников только 41% разговоров. Этого недостаточно, что считать, что он прошел тест Тьюринга.

Владимир Губайловский

Теги:

Искусственный интеллект

Нейросети

Нейронауки

Unsplash

Один вопрос преследует ChatGPT на пути к статусу суперзвезды в области искусственного интеллекта: прошла ли программа тест, который предложил английский математик Алан Тьюринг для определения «мыслящей машины»?

ChatGPT может быть изобретательным, быстрым и вообще производить впечатление «умного человека». Он хорошо справляется с задачей демонстрацией интеллекта. В разговоре с людьми он «звучит» по-человечески и даже может пошутить, может подражать жаргону подростков, может сдать экзамен на юридический факультет.

Но иногда он выдает совершенно абсурдную информацию. Мы подробно разбирали его «галлюцинации». Он не понимает, что он сейчас сказал.

Пройти тест Тьюринга он просто обязан. Иначе никакой разговор о том, что он «мыслит» просто невозможен. По мнению двух исследователей из Калифорнийского университета в Сан-Диего, ChatGPT близок к этому, но знаменитый тест или «игру в имитацию» он сих пор не прошел.

Игра в имитацию

Алан Тьюринг. 1936 год, Принстон.

Википедия

Камерон Джонс, специализирующийся на языке, семантике и машинном обучении, и Бенджамин Берген, профессор когнитивных наук, опирались на работы Алана Тьюринга, который 70 лет назад предложил «игру в имитацию» для определения того, может ли машина достичь такого уровня интеллекта, что обманет горящего с ней человека, который решит, что она тоже человек.

Ученые собрали 650 участников и провели 1400 «игр в имитацию», в которых участник эксперимента говорил либо с человеком, либо моделью GPT-4. Участников просили определить, с кем они разговаривают.

Исследователи обнаружили, что модели GPT-4 удалось обмануть участников только в 41% случаев, а GPT-3.5 — лишь в 5-14% случаев. (Интересно, что людям удалось убедить участников в том, что они только в 63% случаев). Даже 41% достигнутый GPT-4 — это намного меньше, чем порог после которого сам Тьюринг соглашался признать машину «мыслящей» или способной демонстрировать интеллект. Тьюринг считал, что для этого необходимо, чтобы машина достигала успеха в 70% случаев. Так что, тест Тьюринга GPT-4 — самая продвинутая на сегодня система ИИ не прошла.

Исследователи закономерно пришли к выводу: «Мы не находим доказательств того, что GPT-4 проходит тест Тьюринга».

Ученые отметили, что тест Тьюринга по-прежнему сохраняет свою ценность в качестве меры эффективности машинного диалога. «Тест сохраняет свою актуальность в качестве основы для измерения беглого социального взаимодействия и понимания человеческих стратегий адаптации к этим устройствам», — заявили они.

Ученые предупредили, что во многих случаях чат-боты действительно могут общаться достаточно убедительно, чтобы обмануть пользователей.

«Коэффициент успешности в 41% говорит о том, что обман со стороны моделей ИИ уже может быть вероятен, особенно в условиях, когда собеседники в меньшей степени обращают внимание на возможность того, что они говорят не с человеком. Модели ИИ, способные уверенно выдавать себя за людей, могут иметь широкомасштабные социальные и экономические последствия».

Исследователи отметили, что участники, проводившие правильную идентификацию, ориентировались на несколько факторов.

Слишком формальные или слишком неформальные модели настораживали участников. Если ответы были слишком многословны или слишком кратки, если их грамматика или пунктуация были исключительно хорошими или «неубедительно» плохими, то это становилось ключевым фактором при определении того, с кем имеют дело участники — с человеком или с машиной. Тестируемые также были чувствительны к ответам, звучащим слишком шаблонно.

«Большие языковые модели учатся создавать наиболее вероятные варианты ответов и настраиваются на то, чтобы избегать противоречивых суждений. Эти процессы могут поощрять общие ответы, которые типичны в целом, но лишены особенностей присущих любому человеку», — считают исследователи.

Исследователи предположили, что будет важно отслеживать модели ИИ по мере того, как они будут приобретать все большую гибкость и впитывать все больше человеческих особенностей в разговоре.

В принципе, сегодня не видно ограничений почему чат-боты в ближайшие годы не пройдут тест Тьюринга, но пока это еще не случилось.