Искусственный интеллект превосходит человека в тестах на теорию разума

Международная группа психологов и нейробиологов путем экспериментов обнаружила, что большие лингвистические модели способны превзойти человека в тестах на теорию разума.
Искусственный интеллект превосходит человека в тестах на теорию разума
Unsplash
Тесты на теорию разума проверяют в первую очередь способен ли человек поставить себя на место другого и представить мир с иной точки зрения, чем свою собственная.

В исследовании, опубликованном в журнале Nature Human Behavior, группа провела тесты на теорию разума для добровольцев и сравнила средние результаты с результатами двух типов больших лингвистических моделей (LLM).

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

За последние несколько лет LLM, такие как ChatGPT, завоевали всеобщий интерес. Быстро росли их возможности. Одной из новых возможностей стало умение определять настроение или психическое состояние человека-пользователя.

В новом исследовании ученые задались вопросом, продвинулись ли способности LLM до такой степени, что они могут выполнять тесты на теорию разума наравне с людьми.

Теория разума

Сочувствие и доверие определяются теорией разума
Сочувствие и доверие определяются теорией разума
Unsplash
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Тесты на теорию разума были сравнительно давно разработаны психологами для оценки психического и/или эмоционального состояния человека во время социальных взаимодействий. Люди используют различные невербальные сигналы, чтобы сигнализировать о своем психическом состоянии другим. И другие превосходно улавливают такие сигналы. Согласно исследованиям нейробиологов здесь важно, что человек способен поставить себя на место другого и почувствовать то, что другой чувствует. Такой тест, как правило, не проходят маленькие дети, пациенты с аутистическим расстройством и животные.

Многие специалисты считают, что компьютер никогда не пройдет такое испытание — он ведь лишен сочувствия.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«Сочувствующий» компьютер

Не забывайте об этом
Не забывайте об этом
Unsplash

Исследовательская группа протестировала несколько LLM, чтобы увидеть, насколько хорошо они пройдут тесты на теорию разума по сравнению с группой людей, проходящих те же тесты.

Исследователи проанализировали данные 1907 добровольцев, которые прошли стандартные тесты теории разума, и сравнили их результаты с результатами больших лингвистических моделей, в том числе Llama 2-70b и GPT-4.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Обе группы ответили на пять типов вопросов, каждый из которых предназначен для оценки таких моментов, как случайная ошибка, ирония или правдивость утверждения. Каждого также попросили ответить на вопросы о «ложных убеждениях» (к ним относятся, например, разные конспирологические теории — «нас всех зомбируют», «нами всеми управляет мировая закулиса» и т.д.).

Исследователи обнаружили, что LLM справлялись с вопросами как правило не хуже чем люди, а иногда и лучше. Самые лучшие результаты по всем типам вопросов показал GPT-4, Llama-2 были в среднем слабее, чем у людей.

По словам исследователей, эксперимент показывает, что LLM в настоящее время способны выполнять теоретические тесты теории разума с результатами сравнимыми с человеком, хотя ученые и не утверждают, что LLM столь же умны как люди или обладают той же степенью сочувствия.