Маска, я тебя знаю!: Внимательная система распознавания изображений

Разработка группы исследователей из MIT способна не только улучшить качество распознавания визуальных образов, но и, возможно, пролить свет на некоторые тайны работы человеческого мозга.
Теги:
Маска, я тебя знаю!: Внимательная система распознавания изображений

Распознавание объектов — одна из ключевых тем исследований, связанных с машинным зрением. В конце концов, компьютер, умеющий видеть, но не понимающий, на что смотрит, будет не слишком полезен.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Исследователи из MIT совместно с коллегами из Калифорнийского университета в Лос-Анджелесе разработали новую технологию, которая сделает распознавание объектов проще в реализации, а также позволит эффективнее использовать память компьютера. Привычная система распознавания при попытке определить, какой именно объект она видит на цифровом изображении, обычно начинает с поиска ключевых особенностей изображения. Так, система распознавания лиц попытается обнаружить участки картинки, напоминающие глаза, рот, нос, а потом проанализирует правильность их взаимного расположения. Разработка таких систем опирается на человеческую интуицию и субъективное мнение: программист решает, какие фрагменты изображения указать в качестве ключевых. Это значит, что для каждого нового типа объектов, добавляющегося в репертуар программы, необходимо начинать с нуля определение и задание характеристических особенностей.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

При этом система, предназначенная для распозавания миллионов различных типов объектов, окажется невообразимо большой. Каждый объект должен иметь свой собственный, уникальный набор из трех-четырех ключевых частей, но эти части будут выглядет по разному из-под разных углов, и т. п. — поэтому каталогизация всех этих наборов данных потребует места для хранения огромного количества информации.

Исследователи из Массачусетского технологического института описали подход, который решает обе эти проблемы сразу. Как и большинство систем распознавания визуальных образов, их система обучается узнавать новые объекты путем «тренировок» на цифровых изображениях с пометками о типе соответствующего объекта. Но при этом сведения о том, какие ключевые элементы следует искать, не является необходимым начальным условием. Для каждого помеченного объекта система определяет самые мелкие фрагменты — вплоть до коротких отрезков линий. Затем она фиксирует последовательности, в которых эти элементы связаны между собой, образуя более сложные фигуры. Затем — ищет взаимосвязи этих более сложных фигур, и так до тех пор, пока не будет построена иерархическая модель всего исследуемого объекта.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Как только система сводит воедино этот каталог по направлению снизу вверх, она проходит его сверху вниз, отсеивая излишнюю информацию. Так, в наборе данных о лошади, изображенной в профиль, самым верхним слоем будет являться целостное представление об объекте «лошадь», а вот второй сверху слой уже может включать одновременно и изображение лошадиного крупа, одной задней ноги и части живота, и изображение части крупа и обеих задних ног. В подавляющем большинстве случаев система способна определить, что оба этих изображения соответствуют одной части объекта «лошадь», и вырезать одно из них из своей иерархии.

Хотя иерархический подход добавляет новые информационные слои к существующим цифровым изображениям, в конечном итоге он позволяет более рационально использовать ресурсы компьютера, поскольку различные объекты могут иметь общие «части» в каталоге. Т. е. на нескольких различных уровнях каталогов, описывающих лошадь и оленя, будет много общих данных. В некотором приближении то же самое будет справедливо для лошадей и автомобилей. В том случае, если некоторая фигура является общей для двух и более наборов данных, необходимо хранить информацию о ней только в одном экземпляре. В результате, чем больше типов объектов учится распознавать система, тем меньшее количество частей каждого последующего объекта ей необходимо запоминать.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

При этом, по мнению разработчиков, данная программа представляет собой нечто большее, чем просто новый (хотя и весьма эффективный) способ распознавания объектов. Возможно, используемый алгоритм поможет разгадать некоторые загадки работы человеческого мозга. Дело в том, что в распознавании визуальных образов, как правило, участвуют от 5 до 7 определенных участков мозга, но никто не может сказать наверняка, что именно они делают. Новая система распознавания данных не ограничена в количестве слоев, которые она должна создавать в каждой иерархической модели, она попросту объединяет данные до тех пор, пока не получит представление о целостном объекте. Каково же было удивление исследователей, когда они обратили внимание на то, что система с завидным постоянством ограничивается 5−7 слоями! Это позволяет выдвинуть гипотезу о том, что в мозге человека происходит подобная же обработка визуальных образов.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Исследователи сообщают, что во время тестов их система выполняла свою работу ничуть не хуже существующих систем распознавания образов. Но до человеческого мозга ей еще далеко: на данном этапе система способна распознавать только двумерные изображения. Чтобы приблизиться к уровню, на котором обрабатывает визуальную информацию мозг человека, программа должна включать в себя множество дополнительных данных о текстурах и контурах трехмерных объектов.