Визуальные способности языковых моделей сильно преувеличены

Ученые из Обернского университета, США, показали, что утверждения о визуальных навыках больших языковых моделей (LLM) с возможностями зрения (VLM), сильно преувеличены. Главная проблема — это пересекающиеся и закрывающие друг друга объекты. Их пока ИИ-модели распознают с ошибками.
Визуальные способности языковых моделей сильно преувеличены
Пожмем друг другу руки, если получится https://www.buzzfeednews.com/
Мы уже устали смеяться над ошибками ИИ в числе пальцев. На изображениях, по которым учатся модели, очень редко встречается раскрытая ладонь, и все пять пальцев отчетливо видны. Но оказывается, это только одна из множества подобных ошибок. Ребенок в самом начале своего развития думает, чтобы если предмет закрыт, — он исчез. Потом ребенок поймет, что предмет не исчезает, сможет достроить его по небольшой детали и его мозг научится нормально обрабатывать визуально перекрывающиеся объекты. Сегодня визуальный ввод работает, как самый маленький ребенок. Перекрытия он достраивать не умеет. И это не случайность, а принципиальная проблема.

Ученые из Обернского университета в США, показали, что утверждения о визуальных навыках больших языковых моделей (LLM) с возможностями зрения (VLM), сильно преувеличены. Главная проблема — это пересекающиеся и закрывающие друг друга объекта. Их пока ИИ-модели распознают с ошибками.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ученые протестировали четыре самых популярных VLM (GPT-4o, Gemini-1.5 Pro, Claude-3 Sonnet и Claude-3.5 Sonnet), чтобы проверить их зрительные способности. Исследование размещено на сервере препринтов arXiv.

По мере развития больших языковых моделей за последний год были добавлены новые функции, такие как визуальный ввод. Но такие способности привели к возникновению вопросов относительно природы зрительных способностей ИИ в целом.

Как и у животных, любая зрительная система, созданная человеком, должна иметь два основных компонента: камеру, чтобы «видеть», и мозг, чтобы понять, что ты увидел. Исследователи обнаружили, что, хотя камера, используемая для захвата визуализации, может быть просто замечательной, обработка данных, которые она получает, все еще находится на ранней стадии.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Как узнать целое по части

Все четыре модели плохо справились с распознаванием пересечения линий
Все четыре модели плохо справились с распознаванием пересечения линий
https://arxiv.org/abs/2407.06581
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Одно дело попросить языковую модель идентифицировать такое здание, как Тадж-Махал, и совсем другое — задать ей вопросы о вещах, которые изображены на картинке. Например, если попросить языковую модель рассказать, сколько детей, стоящих перед Тадж-Махалом, держатся за руки, она, скорее всего, наделает ошибок, потому что ее не уверенно различать, что такое «держаться за руки». И не совсем понятно, как ее этому учить.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Исследователи продемонстрировали недостаток способности к обработке визуальных данных, попросив четыре популярных LLM сделать то, что не вызывает никакой трудности у человека, например подсчитать, сколько кругов на изображении перекрываются или сколько колец соединены между собой.

Все четыре LLM показали плохие результаты. Им было трудно определить, сколько колец пересекаются, когда их было больше пяти, потому что кроме олимпийских колец они практически не видели таких примеров.

Дети еще многому могут научить ИИ
Дети еще многому могут научить ИИ
DALLE-3

Работа команды над этим проектом показывает, что большим языковым моделям предстоит пройти долгий путь, прежде чем они смогут обрабатывать визуальную информацию так же, как люди.