Визуальные способности языковых моделей сильно преувеличены
Ученые из Обернского университета в США, показали, что утверждения о визуальных навыках больших языковых моделей (LLM) с возможностями зрения (VLM), сильно преувеличены. Главная проблема — это пересекающиеся и закрывающие друг друга объекта. Их пока ИИ-модели распознают с ошибками.
Ученые протестировали четыре самых популярных VLM (GPT-4o, Gemini-1.5 Pro, Claude-3 Sonnet и Claude-3.5 Sonnet), чтобы проверить их зрительные способности. Исследование размещено на сервере препринтов arXiv.
По мере развития больших языковых моделей за последний год были добавлены новые функции, такие как визуальный ввод. Но такие способности привели к возникновению вопросов относительно природы зрительных способностей ИИ в целом.
Как и у животных, любая зрительная система, созданная человеком, должна иметь два основных компонента: камеру, чтобы «видеть», и мозг, чтобы понять, что ты увидел. Исследователи обнаружили, что, хотя камера, используемая для захвата визуализации, может быть просто замечательной, обработка данных, которые она получает, все еще находится на ранней стадии.
Как узнать целое по части
Одно дело попросить языковую модель идентифицировать такое здание, как Тадж-Махал, и совсем другое — задать ей вопросы о вещах, которые изображены на картинке. Например, если попросить языковую модель рассказать, сколько детей, стоящих перед Тадж-Махалом, держатся за руки, она, скорее всего, наделает ошибок, потому что ее не уверенно различать, что такое «держаться за руки». И не совсем понятно, как ее этому учить.
Исследователи продемонстрировали недостаток способности к обработке визуальных данных, попросив четыре популярных LLM сделать то, что не вызывает никакой трудности у человека, например подсчитать, сколько кругов на изображении перекрываются или сколько колец соединены между собой.
Все четыре LLM показали плохие результаты. Им было трудно определить, сколько колец пересекаются, когда их было больше пяти, потому что кроме олимпийских колец они практически не видели таких примеров.
Работа команды над этим проектом показывает, что большим языковым моделям предстоит пройти долгий путь, прежде чем они смогут обрабатывать визуальную информацию так же, как люди.