ИИ научился сочинять песни птиц и понял, чем они похожи на язык человека

Если ChatGPT тренируются на человеческих текстах, чтобы создавать грамматически правильные предложения, то новый метод моделирования, предложенный учеными из Университета Пенсильвании, тренируется на записях птиц, чтобы создавать птичьи песни.
Результаты работы направлены на понимание структуры птичьего пения и его базовой нейробиологии, но они могут дать представление о нейронных механизмах человеческого языка, заявила команда. Работа опубликована в журнале Journal of Neuroscience.
Подобно тому, как люди располагают слова в определенном порядке, чтобы сформировать грамматически правильное предложение, птицы пропевают определенные наборы нот, так называемые слоги. Эти слоги располагают как слова человеческого языка только в ограниченном количестве комбинаций.
Контекстно-зависимые слова и слоги
Как для людей, так и для птиц завершение предложения или последовательности слогов часто зависит от того, что уже было сказано. Например, фраза «летит как» может быть частью аналогии, например, во фразах «время летит как стрела» или, например, во фразе «муха летит как на мед». Однако смешивание приводит к бессмысленным выражениям, например «время летит как на мед». В этом примере фраза «летит как» зависит от контекста.

«Из нашей предыдущей работы мы знаем, что песни бенгальских вьюрков тоже имеют зависимость от контекста», — говорит соавтор работы Деже Джин. — «В новом исследовании мы разработали статистический метод для более точной количественной оценки зависимости от контекста у птиц и начали понимать, как эта зависимость запрограммирована в мозге».
Исследователи проанализировали ранее записанные песни шести бенгальских вьюрков, которые пропевают около 7–15 слогов в каждой последовательности. С помощью нового метода исследователи разработали модели, которые точно воспроизводят последовательности, которые на самом деле поют птицы.
Модель для песен птиц и языка человека
Эти простые модели похожи на LLM (большие языковые модели, например, ChatGPT). Они отображают вероятности того, какие слова — или в данном случае слоги — скорее всего последуют за определенным словом/слогом на основе ранее проанализированных текстов или последовательностей песен. Они представляют собой тип модели Маркова — метод моделирования цепочки событий. Они представлены в виде своего рода блок-схемы, которая начинается со слога, указывающего на последующие варианты для различных слогов, которые могут следовать, а стрелки указывают с какой вероятностью прозвучит следующий слог.

Исследователи продолжали усложнять и уточнять свою модель, добиваясь большей точности создаваемых песен.
«У всех шести птиц, которых мы изучали, были контекстно-зависимые переходы слогов, что говорит о том, что это важный аспект пения птиц», — сказал Джин. — «Однако количество слогов с контекстной зависимостью варьировалось среди отдельных песен. Это могло быть связано с несколькими факторами, включая мозг птиц, или, поскольку эти песни выучиваются, это могло быть связано с объемом контекстной зависимости в песнях их наставника».
Исследователи заявили, что их новый метод обеспечивает более надежный способ анализа не только пения птиц, но и вокализации других животных и даже поведенческие последовательности.
«Мы использовали этот метод с английским языком и смогли сгенерировать текст, который в основном грамматически правилен», — сказал Джин. — «Конечно, мы не пытаемся создать новую генеративную языковую модель, но интересно, что одна и та же модель может обрабатывать как пение птиц, так и человеческий язык. Возможно, базовый нейронный механизм также похож».
Джин добавил: «Многие философы описывают человеческий язык, и особенно грамматику, как что-то совершенно исключительные, но если эта модель, обученная на пении птиц, может создавать предложения, подобные языку человека, и если нейронные механизмы, лежащие в основе пения птиц и человеческого языка, действительно похожи, вы не можете не задаться вопросом, действительно ли наш язык настолько уникален».