Российские ученые показали, что ИИ распознает изображения хуже человека

Ученые из НИУ ВШЭ и Московского политехнического университета пришли к выводу, что у компьютерного зрения нет тех физиологических особенностей, которые есть у человека, поэтому оно хуже распознает изображения.
Владимир Губайловский
Владимир Губайловский
Российские ученые показали, что ИИ распознает изображения хуже человека
Рождественский олень, составленный из лампочек. Jack B @nervum

Ученые сравнили, как человек и ИИ распознают оптические иллюзии. Человек побеждает за явным преимуществом. Пока

Чтобы понять, чем машинное восприятие изображений отличается от человеческого, российские ученые загрузили изображения классических визуальных иллюзий в онлайн-сервис распознавания образов IBM Watson Visual Recognition. Большая часть из них представляла собой геометрические силуэты, частично скрытые геометрическими формами цвета заднего плана. Система пыталась определить, что представляет собой поступившее изображение, и указывала степень уверенности в своем ответе.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Оказалось, что искусственный интеллект не способен распознать ни одну воображаемую фигуру. Исключение составил раскрашенный воображаемый треугольник. В силу высокого контраста с фоном он был распознан правильно. (На картинке он второй в верхнем ряду).

Простые визуальные иллюзии. Пресс-релиз НИУ ВШЭ
Простые визуальные иллюзии.
Пресс-релиз НИУ ВШЭ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Почему ИИ не видит рисунки, которые с легкостью распознает человек

«Объекты, похожие на те, что мы использовали в ходе эксперимента, встречаются в реальной жизни, — комментирует автор исследования Владимир Винников, аналитик Научно-учебной лаборатории методов анализа больших данных факультета компьютерных наук ВШЭ. — Например, прицеп трейлера или радиобашня, которые по ночам обозначаются только габаритными огнями».

Человеческий глаз постоянно непроизвольно движется, а светочувствительная поверхность его сетчатки имеет форму полусферы. Чтобы человек увидел иллюзию, изображению достаточно быть векторным — состоять из опорных точек и соединяющих их кривых. Человеческое воображение достроит картинку благодаря физиологической особенности зрения — постоянному движению глаз.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В оптико-электронных системах все устроено иначе. Их светочувствительная матрица имеет плоскую, как правило прямоугольную, форму, а сама система линз далеко не так свободна в движении, как человеческий глаз. Поэтому искусственный интеллект не может достроить воображаемые линии, которые связывают фрагменты геометрической иллюзии. Машинное зрение видит только то, что реально изображено, тогда как человек достраивает в воображении полное изображение по его очертаниям.

Нейросетевые системы распознавания образов сегодня активно распространяются в коммерческом секторе. Однако вопрос, насколько точно машина распознает изображение, до сих остается открытым. От точности его распознавания могут зависеть человеческие жизни. Например, если автопилот автомобиля или самолета не распознает объект с низкой контрастностью относительно фона и не успеет вовремя уклониться от препятствия, может произойти катастрофа.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Недостатки машинного распознавания можно исправить

Например, дополнить распознавание растровых изображений, представляющих собой сетку пикселей, имитацией физиологических особенностей движения глаз, которые позволяют глазу видеть двумерные и трехмерные сцены. Также можно добавить векторное описание изображений. Оно позволит запрограммировать машину на обход изображения по траекториям, заданным векторами.

«Воображаемые фигуры обязательно стоит использовать в качестве тестов в системах, которые зависят от распознавания фото- и видеопотоков. Например, в автопилотах машин или беспилотных летательных аппаратов. Это поможет избежать рисков, связанных с использованием систем машинного интеллекта в промышленности и транспортных системах», — полагает Владимир Винников.