ИИ учится понимать язык, просто просматривая видео

Группа ученых разработала ИИ-модель, которая обучается языку, не имея никаких предварительных данных, исключительно просматривая видео со звуком. Модель уже «понимает», как связаны звуковая и визуальная информация. Ученые считают, что именно так учатся языку дети, и что модель поможет интерпретировать язык животных.
ИИ учится понимать язык, просто просматривая видео
Алгоритм DenseAV учится понимать язык исключительно путем ассоциирования аудио- и видеоконтента. Mark Hamilton
Если два разных языка, один из которых чисто визуальный, а другой — чисто звуковой, описывают один и тот же объект или действие, они могут интерпретировать друг друга. Если мы смотрим видеоклип и слушаем комментарий, мы обнаруживаем связь между конкретными словами (или звуками) и картинкой. И таким образом можно понять оба языка, не зная о них ничего заранее.

Дети не знают правил грамматики, их словарный запас на первом этапе обучения очень скромен и состоит в основном из звукоподражательных возгласов. Но постепенно, оказываясь в разных ситуациях и слыша слова, которые говорят взрослые, дети учатся услышанные слова и ситуации связывать. Слова получают смысл, а картинка — словесное (или звуковое) описание.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Отталкиваясь от этой идеи ученые из Массачусетского технологического института, Оксфордского университета и компаний Google и Microsoft разработали ИИ-модель, получившую название DenseAV. Ее описание опубликовано на сайте препринтов arxiv. Но началась работа вовсе не с языка детей.

Как пингвин-грубиян вдохновил ученых

Ведущий автор работы Марк Гамильтон говорит: «Забавно, но ключевым моментом вдохновившим нашу работу стал фильм "Марш пингвинов". В нем есть сцена, где пингвин падает, идя по льду, и издает короткий прерывистый крик. Когда смотришь на это, становится почти очевидно, что этот крик означает английское слово из четырех букв».

Нажми и смотри

Марш пингвинов. Трайлер

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ученые использовали для обучения DenseAV набор AudioSet, включающий 2 миллиона видеороликов с YouTube. Добавили другие ролики, которые связывают видео и звук. Ученые не размечали данные, а брали «сырые» ролики. Использовалась модель контрастного обучения без учителя. Модель ничего не знала о языке на начало обучения. Даже при таких жестких условиях, которые в целом воспроизводят ситуацию обучения ребенка первому языку, модель обучилась уверенно сопоставлять видео и звук.

Нажми и смотри

Это позволило модели давать звуковое описание просмотренной картинке, и наоборот — связывать картинку со звуком.

То, что источник вдохновения стал крик пингвина — не случайно. Ученые намерены использовать свою модель для интерпретации языка животных, в частности, песен китов. Если обучить модель на песнях китов и сопоставить их с ситуациями из жизни кита, можно будет, например, достаточно надежно сказать, что видит кит, чей голос мы слышим за десятки или даже сотни километров.