Смеются ли андроиды над электроовцами? ИИ учится понимать юмор
Группа ученых из американских университетов и компаний, занимающихся ИИ, провела тестирование Больших языковых моделей на «чувство юмора». На этот раз модели ИИ участвовали вместе с людьми в конкурсе на выбор лучшей подписи к юмористическим рисункам журнала New Yorker.
Большие языковые модели могут генерировать тысячи шуток типа «Почему курица перешла дорогу?". Но понимают ли они, почему эти шутки смешные? (Надо признать, что шуток, над которыми смеются все, сравнительно немного, а шутку про курицу, и вовсе мало кто оценит, не зная ее долгую почти 200-летнюю историю).
Используя в качестве тестового полигона сотни работ, представленных на конкурсы карикатур журнала New Yorker, исследователи поставили перед моделями ИИ и людьми три задачи: сопоставить шутливую подпись с карикатурой, определить подпись под карикатурой из предложенного списка и объяснить, почему эта подпись смешная.
Во всех задачах люди справлялись с заданиями заметно лучше ИИ, в том числе и ChatGPT. Так начинают ли машины «понимать» юмор? Если говорить коротко, то они добились определенного прогресса, но еще далеки от совершенства.
«Способ, которым люди проверяют модели ИИ на понимание, заключается в создании тестов с множественным выбором или других оценок с определяемой точностью ответа», — говорит соавтор работы Джек Хессел. - «И если модель в конечном итоге превосходит по точности результаты, полученные человеком в этом тесте, вы думаете: "Хорошо, но значит ли это, что она действительно что-то понимает?" Вполне оправданно утверждать, что ни одна машина не может по-настоящему что-то "понять", потому что понимание — это человеческая особенность. Но независимо от того, понимает машина или нет, все равно впечатляет, насколько хорошо она справляется с этими задачами».
Как проверяли чувство юмора у машин
Для проведения исследования ученые собрали данные о конкурсах на лучшую подпись к юмористическому рисунку в журнале New Yorker за 14 лет — всего более 700 конкуров. Каждый конкурс включал в себя: карикатуру без подписи; подписи, поступившие за неделю; трех финалистов, отобранных редакторами New Yorker.
В конкурсе принимали участие два вида ИИ. Первый — «компьютерное зрение» — переводил картинку в описание. Второй — генерировал описание. Хессель говорит: «В случае с New Yorker интересно то, что связи между изображениями и подписями игровые, они отсылают к множеству реальных объектов. Поэтому задача "понимания" взаимосвязи между подписью и картинкой довольно сложная».
В ходе эксперимента модели искусственного интеллекта должны были выбрать подпись-финалист для данного рисунка из числа «отвлекающих», которые были финалистами других конкурсов. Ранжирование качества требовало от моделей отличить подпись-финалист от нефиналиста. Объяснение требовало от моделей генерировать свободный текст о том, как подпись связана с рисунком.
Наилучшие показатели ИИ в тесте на сопоставление карикатуры и подписи составили 62%, что значительно ниже 94%, достигнутых человеком. При сравнении объяснений, созданных человеком и ИИ, предпочтение было отдано человеку примерно в двух случаях из трех. Но судили этот конкурс люди, так что нельзя исключить некоторую предвзятость.
Авторы работы считают, что ИИ пока не способен «понять» юмор, но он может стать инструментом юмористов, и его можно использовать, например, для мозгового штурма.
Нет, чувства юмора у ИИ нет. Пока нет.