ИИ учится понимать язык, просто просматривая видео
Дети не знают правил грамматики, их словарный запас на первом этапе обучения очень скромен и состоит в основном из звукоподражательных возгласов. Но постепенно, оказываясь в разных ситуациях и слыша слова, которые говорят взрослые, дети учатся услышанные слова и ситуации связывать. Слова получают смысл, а картинка — словесное (или звуковое) описание.
Отталкиваясь от этой идеи ученые из Массачусетского технологического института, Оксфордского университета и компаний Google и Microsoft разработали ИИ-модель, получившую название DenseAV. Ее описание опубликовано на сайте препринтов arxiv. Но началась работа вовсе не с языка детей.
Как пингвин-грубиян вдохновил ученых
Ведущий автор работы Марк Гамильтон говорит: «Забавно, но ключевым моментом вдохновившим нашу работу стал фильм "Марш пингвинов". В нем есть сцена, где пингвин падает, идя по льду, и издает короткий прерывистый крик. Когда смотришь на это, становится почти очевидно, что этот крик означает английское слово из четырех букв».
Марш пингвинов. Трайлер
Ученые использовали для обучения DenseAV набор AudioSet, включающий 2 миллиона видеороликов с YouTube. Добавили другие ролики, которые связывают видео и звук. Ученые не размечали данные, а брали «сырые» ролики. Использовалась модель контрастного обучения без учителя. Модель ничего не знала о языке на начало обучения. Даже при таких жестких условиях, которые в целом воспроизводят ситуацию обучения ребенка первому языку, модель обучилась уверенно сопоставлять видео и звук.
Это позволило модели давать звуковое описание просмотренной картинке, и наоборот — связывать картинку со звуком.
То, что источник вдохновения стал крик пингвина — не случайно. Ученые намерены использовать свою модель для интерпретации языка животных, в частности, песен китов. Если обучить модель на песнях китов и сопоставить их с ситуациями из жизни кита, можно будет, например, достаточно надежно сказать, что видит кит, чей голос мы слышим за десятки или даже сотни километров.