Смеются ли андроиды над электроовцами? ИИ учится понимать юмор

Группа ученых из американских университетов и компаний, занимающихся ИИ, провела тестирование Больших языковых моделей на «чувство юмора». На этот раз модели ИИ участвовали вместе с людьми в конкурсе на выбор подписи к юмористическим рисункам журнала New Yorker. Все модели ИИ, в том числе ChatGPT компании OpenAI значительно уступили людям.
Смеются ли андроиды над электроовцами? ИИ учится понимать юмор
Unsplash.com

Нет, чувства юмора у ИИ нет. Пока нет.

Группа ученых из американских университетов и компаний, занимающихся ИИ, провела тестирование Больших языковых моделей на «чувство юмора». На этот раз модели ИИ участвовали вместе с людьми в конкурсе на выбор лучшей подписи к юмористическим рисункам журнала New Yorker.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Большие языковые модели могут генерировать тысячи шуток типа «Почему курица перешла дорогу?». Но понимают ли они, почему эти шутки смешные? (Надо признать, что шуток, над которыми смеются все, сравнительно немного, а шутку про курицу, и вовсе мало кто оценит, не зная ее долгую почти 200-летнюю историю).

Используя в качестве тестового полигона сотни работ, представленных на конкурсы карикатур журнала New Yorker, исследователи поставили перед моделями ИИ и людьми три задачи: сопоставить шутливую подпись с карикатурой, определить подпись под карикатурой из предложенного списка и объяснить, почему эта подпись смешная.

Пример конкурсов New Yorker Cartoon
Пример конкурсов New Yorker Cartoon
https://aclanthology.org/2023.acl-long.41.pdf
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Во всех задачах люди справлялись с заданиями заметно лучше ИИ, в том числе и ChatGPT. Так начинают ли машины «понимать» юмор? Если говорить коротко, то они добились определенного прогресса, но еще далеки от совершенства.

«Способ, которым люди проверяют модели ИИ на понимание, заключается в создании тестов с множественным выбором или других оценок с определяемой точностью ответа», — говорит соавтор работы Джек Хессел. - «И если модель в конечном итоге превосходит по точности результаты, полученные человеком в этом тесте, вы думаете: "Хорошо, но значит ли это, что она действительно что-то понимает?" Вполне оправданно утверждать, что ни одна машина не может по-настоящему что-то "понять", потому что понимание — это человеческая особенность. Но независимо от того, понимает машина или нет, все равно впечатляет, насколько хорошо она справляется с этими задачами».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Как проверяли чувство юмора у машин

Unsplash.com

Для проведения исследования ученые собрали данные о конкурсах на лучшую подпись к юмористическому рисунку в журнале New Yorker за 14 лет — всего более 700 конкуров. Каждый конкурс включал в себя: карикатуру без подписи; подписи, поступившие за неделю; трех финалистов, отобранных редакторами New Yorker.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В конкурсе принимали участие два вида ИИ. Первый — «компьютерное зрение» — переводил картинку в описание. Второй — генерировал описание. Хессель говорит: «В случае с New Yorker интересно то, что связи между изображениями и подписями игровые, они отсылают к множеству реальных объектов. Поэтому задача "понимания" взаимосвязи между подписью и картинкой довольно сложная».

В ходе эксперимента модели искусственного интеллекта должны были выбрать подпись-финалист для данного рисунка из числа «отвлекающих», которые были финалистами других конкурсов. Ранжирование качества требовало от моделей отличить подпись-финалист от нефиналиста. Объяснение требовало от моделей генерировать свободный текст о том, как подпись связана с рисунком.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Наилучшие показатели ИИ в тесте на сопоставление карикатуры и подписи составили 62%, что значительно ниже 94%, достигнутых человеком. При сравнении объяснений, созданных человеком и ИИ, предпочтение было отдано человеку примерно в двух случаях из трех. Но судили этот конкурс люди, так что нельзя исключить некоторую предвзятость.

Авторы работы считают, что ИИ пока не способен «понять» юмор, но он может стать инструментом юмористов, и его можно использовать, например, для мозгового штурма.