Прямо как человек: GPT-4 становится на 30% точнее, когда критикует сам себя
«Не каждый день люди разрабатывают новые методы для достижения самых современных стандартов, используя процессы принятия решений, которые когда-то считались уникальными для человеческого интеллекта, — пишут исследователи Ноа Шинн и Эшвин Гопинатх. — Но это именно то, что мы сделали».
Техника улучшения результатов ChatGPT
Техника «Рефлексии» использует и без того впечатляющую способность GPT-4 выполнять различные тесты и представляет «структуру, которая позволяет алгоритмам ИИ имитировать саморефлексию, подобную человеческой, и оценивать ее производительность». Эта техника заключается во введении дополнительных шагов, в ходе которых GPT-4 разрабатывает тесты для критического анализа своих собственных ответов, ищет ошибки и оплошности, а затем переписывает свои решения на основе того, что он понял.
Команда использовала свою технику в нескольких различных тестах производительности. В тесте HumanEval, который состоит из 164 задач программирования на Python, которые модель никогда не видела, GPT-4 набрал рекордные 67%, но с использованием техники рефлексии его оценка подскочила до очень впечатляющих 88%.
В тесте Alfworld, который проверяет способность ИИ принимать решения и решать многоэтапные задачи, выполняя несколько различных допустимых действий в различных интерактивных средах, техника рефлексии повысила производительность GPT-4 примерно с 73% до почти идеальных 97%, потерпев неудачу только в 4 из 134 задач.
В другом тесте под названием HotPotQA языковой модели был предоставлен доступ к Википедии, а затем 100 из возможных 13 000 пар вопросов / ответов, которые «заставляют агентов анализировать содержимое и аргументировать несколько подтверждающих документов». В этом тесте GPT-4 набрал всего 34% точности, но с техникой саморефлексии он смог показать значительно лучшие результаты — 54%.