14.06.2024, 11:13

ИИ учится понимать язык, просто просматривая видео

Группа ученых разработала ИИ-модель, которая обучается языку, не имея никаких предварительных данных, исключительно просматривая видео со звуком. Модель уже «понимает», как связаны звуковая и визуальная информация. Ученые считают, что именно так учатся языку дети, и что модель поможет интерпретировать язык животных.

Владимир Губайловский

Теги:

Биология

Искусственный интеллект

Лингвистика

ИИ учится понимать язык, просто просматривая видео

Алгоритм DenseAV учится понимать язык исключительно путем ассоциирования аудио- и видеоконтента. Mark Hamilton

Если два разных языка, один из которых чисто визуальный, а другой — чисто звуковой, описывают один и тот же объект или действие, они могут интерпретировать друг друга. Если мы смотрим видеоклип и слушаем комментарий, мы обнаруживаем связь между конкретными словами (или звуками) и картинкой. И таким образом можно понять оба языка, не зная о них ничего заранее.

Дети не знают правил грамматики, их словарный запас на первом этапе обучения очень скромен и состоит в основном из звукоподражательных возгласов. Но постепенно, оказываясь в разных ситуациях и слыша слова, которые говорят взрослые, дети учатся услышанные слова и ситуации связывать. Слова получают смысл, а картинка — словесное (или звуковое) описание.

Отталкиваясь от этой идеи ученые из Массачусетского технологического института, Оксфордского университета и компаний Google и Microsoft разработали ИИ-модель, получившую название DenseAV. Ее описание опубликовано на сайте препринтов arxiv. Но началась работа вовсе не с языка детей.

Как пингвин-грубиян вдохновил ученых

Ведущий автор работы Марк Гамильтон говорит: «Забавно, но ключевым моментом вдохновившим нашу работу стал фильм "Марш пингвинов". В нем есть сцена, где пингвин падает, идя по льду, и издает короткий прерывистый крик. Когда смотришь на это, становится почти очевидно, что этот крик означает английское слово из четырех букв».

Марш пингвинов. Трайлер

Ученые использовали для обучения DenseAV набор AudioSet, включающий 2 миллиона видеороликов с YouTube. Добавили другие ролики, которые связывают видео и звук. Ученые не размечали данные, а брали «сырые» ролики. Использовалась модель контрастного обучения без учителя. Модель ничего не знала о языке на начало обучения. Даже при таких жестких условиях, которые в целом воспроизводят ситуацию обучения ребенка первому языку, модель обучилась уверенно сопоставлять видео и звук.

Это позволило модели давать звуковое описание просмотренной картинке, и наоборот — связывать картинку со звуком.

То, что источник вдохновения стал крик пингвина — не случайно. Ученые намерены использовать свою модель для интерпретации языка животных, в частности, песен китов. Если обучить модель на песнях китов и сопоставить их с ситуациями из жизни кита, можно будет, например, достаточно надежно сказать, что видит кит, чей голос мы слышим за десятки или даже сотни километров.