Эксперт объяснил, почему ИИ в одних задачах превосходит человека, а в других делает дикие ошибки
Как и человеческий мозг, системы искусственного интеллекта опираются на определенные стратегии обработки и классификации изображений. И, как и в случае с человеческим мозгом, мало что известно о точной природе этих процессов. Ученые из Института науки о мозге Карни при Университете Брауна разбираются с тем, как обе эти системы работают, и добились определенного прогресса в понимании обеих систем.
«И человеческий мозг, и глубокие нейронные сети, на которых основаны системы искусственного интеллекта, называют черными ящиками, потому что мы не знаем точно, что происходит внутри», — говорит Томас Серр, профессор когнитивных, лингвистических и психологических наук и информатики в Брауне. — «Работа, которую мы проводим в Центре вычислительной науки о мозге Карни, направлена на то, чтобы понять и охарактеризовать механизмы мозга, связанные с обучением, зрением и другими видами деятельности, и выявить сходства и различия процессе в мозге с системами искусственного интеллекта».
Глубокие нейронные сети используют алгоритмы обучения для обработки изображений, говорит Серр. Они обучаются на массивных наборах данных, таких как ImageNet, который содержит более миллиона изображений, взятых из Интернета и разделенных на тысячи категорий. Обучение в основном заключается в подаче данных в систему ИИ, пояснил он.
«Мы не указываем системам ИИ, как обрабатывать изображения — например, какую информацию извлекать из изображений, чтобы иметь возможность их классифицировать», — говорит Серр. — «Система ИИ находит свою собственную стратегию. Затем ученые оценивают точность работы ИИ после обучения, например, система достигает 90% точности при различении тысячи категорий изображений».
Серр и его коллеги из Университета Брауна разрабатывают инструмент, который позволяет пользователям приоткрыть крышку «черного ящика» глубоких нейронных сетей и выяснить, какие стратегии используют системы искусственного интеллекта для обработки изображений.
Проект, названный CRAFT — Concept Recursive Activation FacTorization for Explainability — был совместным проектом с Институтом искусственного и естественного интеллекта Тулузы. В этом месяце он был представлен на конференции IEEE/CVF по компьютерному зрению и распознаванию образов в Ванкувере, Канада.
Серр рассказал о том, как CRAFT анализирует процесс, с помощью которого ИИ «видит» изображения, и объяснил исключительную важность понимания того, чем система компьютерного зрения отличается от человеческой.
Томас Серр ответил на вопросы Techxplore.com.
Что показывает CRAFT о том, как ИИ обрабатывает изображения?
CRAFT обеспечивает интерпретацию сложных и высокоразмерных визуальных представлений объектов, изучаемых нейронными сетями, используя современные инструменты машинного обучения, чтобы сделать их более понятными для человека. Это приводит к представлению ключевых визуальных концепций, используемых нейронными сетями для классификации объектов. В качестве примера рассмотрим вид пресноводной рыбы под названием линь. Мы создали веб-сайт, который позволяет людям просматривать и визуализировать эти понятия. Используя сайт, можно увидеть, что концепция линя, созданная системой искусственного интеллекта, включает в себя наборы рыбьих плавников, голов, хвостов, глазных яблок и многое другое.
Эти концепции также показывают, что глубокие сети иногда улавливают предубеждения в наборах данных. Например, одно из понятий, связанных с линем, — это лицо белого мужчины, потому что в Интернете есть много фотографий рыболовов-спортсменов, держащих рыбу, похожую на линя. (И все же система может отличить человека от рыбы.) В другом примере преобладающим понятием, связанным с футбольным мячом в нейронных сетях, является наличие футболистов на поле. Вероятно, это связано с тем, что большинство изображений в Интернете с изображением футбольных мячей также включают отдельных игроков, а не только сам мяч.
Чем метод CRAFT отличается от других способов понимания компьютерного зрения?
Одним из способов объяснения компьютерного зрения является так называемый метод атрибуции, который использует тепловые карты для определения наиболее влиятельных областей изображения, которые определяют ,решения ИИ. Однако эти методы в основном фокусируются на наиболее заметных областях изображения, показывая, «куда» смотрит модель, но не объясняя, «что» модель видит в этих областях.
Улучшение по сравнению с предыдущими методами, которое мой соавтор Томас Фел ввел в CRAFT, заключается не только в том, чтобы определить, какие понятия система использует для составления изображения или что модель видит в этих областях, но и как система ранжирует эти понятия. В примере с линем туловище рыбы соответствует 60% от всего веса концепции линя. Таким образом, мы можем узнать, какой вес система ИИ придает этим подконцептам. Другими словами, она с большей вероятностью классифицирует изображение с туловищем линя как рыбу, чем изображение с белым мужчиной как рыбу.
Как CRAFT может объяснить, почему системы искусственного зрения иногда совершают странные ошибки?
В нашей статье мы используем CRAFT для объяснения классической ошибки ИИ: почему изображение астронавта было неверно классифицировано как лопата системой ИИ, обученной на ImageNet. Вот что произошло: тепловая карта, сгенерированная классическим методом атрибуции, показала, что система смотрела на середину изображения в форме лопаты. Подход CRAFT выделил две наиболее влиятельные концепции, которые определяли решение, вместе с их соответствующими местоположениями.
CRAFT предположил, что нейронная сеть пришла к своему решению, потому что определила понятие «грязь», часто встречающееся у членов класса изображений «лопата», и понятие «лыжные штаны», которые обычно носят люди, убирающие снег с подъездной дорожки лопатой. Она должна была бы определить правильное понятие «брюки астронавта», но изображение брюк, вероятно, никогда не встречалось в процессе обучения, поэтому система не смогла установить эту связь.
Почему так важно понимать детали того, как компьютер видит изображения?
Во-первых, это помогает повысить точность и производительность инструментов, основанных на зрении, таких как распознавание лиц. Это делает системы искусственного интеллекта более надежными, поскольку мы можем понять визуальную стратегию, которую они используют. Кроме того, это помогает сделать их более защищенными от кибератак. Возьмем, к примеру, концепцию состязательных атак. Дело в том, что можно внести крошечные изменения в изображения, например, изменить интенсивность пикселей таким образом, который едва уловим для человека, но этого будет достаточно, чтобы полностью обмануть систему ИИ.
В одном очень важном примере исследователи показали, что, просто добавив несколько наклеек с определенным рисунком на знак «Стоп», они могут обмануть беспилотный автомобиль. Его система зрения воспринимает немного измененный знак, как требование повысить скорость, а ведь он должен остановится. Такие кибератаки могут привести к полному хаосу. Поэтому нам нужно понимать, почему и как эти типы атак действуют на ИИ, чтобы иметь возможность защититься от них.
Чему могут научить нас системы зрения ИИ в отношении систем зрения человека?
Мы узнали, что способ обработки изображений этими нейронными сетями принципиально отличается от человеческого мозга — человеческий мозг воспримет знак «Стоп», как знак «Стоп» какие бы черные наклейки вы на него не налепили. Тем не менее, это очень хорошо спроектированные системы, которые иногда даже превосходят человека, например, в задачах распознавания лиц. Большая часть работы, которую мы проводим в нашей лаборатории, заключается в сравнении того, что похоже и что отличается в этих системах — где сильнее ИИ, а где зрение человека.
Всякий раз, когда нам удается найти ограничения в системах ИИ, мы обращаемся к нейронауке и спрашиваем: «Какой механизм мозга отсутствует в системах ИИ, который, как мы знаем, играет ключевую роль в способности человека решать эту задачу надежно и эффективно?». А затем мы строим абстракции машинного обучения этого механизма и вводим их в систему ИИ нейронной сети. Мы обнаружили, что как только мы наделяем системы ИИ механизмами, вдохновленными человеческим мозгом, они работают гораздо лучше: Они более надежны, более эффективно обучаются и обладают большей точностью при меньшем количестве тренировок.
С точки зрения нейронауки, эти исследования помогают нам лучше понять человеческий мозг и то, как эти различия между людьми и системами ИИ помогают людям, а также мы можем проверить наши идеи более легко и безопасно, чем на человеческом мозге. Очень трудно понять, как мозг обрабатывает визуальную информацию. Были разработаны методы, позволяющие понять, какие работают нейроны и что они делают, а с помощью систем искусственного интеллекта мы можем проверить эти теории и убедиться, в чем мы правы и где ошибались.
Синергия идет в обе стороны: нейронаука дает нам сильные стимулы для улучшения ИИ. Но тот факт, что мы совершенствуем ИИ на основе этих механизмов нейронауки, также позволяет подтвердить открытия, сделанные в нейронауке, и определить ключевые механизмы общего интеллекта, визуального интеллекта и многого другого.
Постоянно звучат слова о слишком человекоподобных системах ИИ. Они вызывают большое беспокойство, но похоже, что когда речь идет о зрении, все хорошо?
Во многих случаях мы обнаружили очень значительные преимущества человека при сравнении системы зрения ИИ и системы зрения человека: Модели, которые становятся более похожими на человеческие, становятся более надежными, устойчивыми к атакам и менее склонными делать то, чего вы не хотите.
Каковы дальнейшие шаги в этом исследовании?
Интересно посмотреть, как системы ИИ классифицируют природные объекты, но я думаю, что следующим шагом будет использование того, что мы узнали об ИИ и человеческом зрении, чтобы помочь системам ИИ решить большие проблемы в науке, которые люди сейчас не в состоянии решить — например, в диагностике рака, или в распознавании ископаемых, или в исследовании космоса. Это будет действительно интересно.
Почему системы искусственного интеллекта могут превзойти человека в некоторых визуальных задачах, например, в распознавании лиц, но допускают вопиющие ошибки в других — например, про изображение астронавта, говорят, что это — лопата?