Как ИИ обучается понимать язык и работает с редкими языками
Команда ученых из Университетского колледжа Лондона разработала новую модель машинного обучения. Главной новинкой этой модели является ее умение не только обучаться, но и забывать накопленную информацию. Ученые показали, что умение забывать помогает гораздо быстрее обучаться новым языкам, имея навыки работы с основными — английским и испанским.
Как работает нейросеть. Короткое пояснение
Сегодня языковые модели ИИ в основном работают на основе искусственных нейронных сетей. Каждый «нейрон» в сети представляет собой математическую функцию, которая получает сигналы (информацию) от других таких же нейронов (предыдущего слоя), выполняет некоторые вычисления и отправляет сигналы нейронам следующего слоя.
Первоначальное состояние слоев более или менее случайно, но в процессе обучения поток информации между нейронами постепенно улучшает состояние нейросети, и она адаптируется к обучающим данным. Например, если исследователь ИИ хочет создать двуязычную модель (скажем, переводчик), он обучит модель на большом наборе тестов на обоих языках. Это позволит нейросети настроить связи между нейронами таким образом, чтобы связать текст на одном языке с эквивалентным значением слов и предложений на другом.
Но такой процесс обучения требует больших вычислительных мощностей. Если модель работает не очень хорошо или потребности пользователя в дальнейшем меняются, модель сложно адаптировать. «Предположим, у вас есть модель, которая поддерживает 100 языков, но представьте, что один язык, который вам нужен, не охвачен», — говорит журналу Quanta Микель Артече, соавтор нового исследования и основатель AI-стартапа Reka. — «Можно начать все сначала, но это очень затратно».
Проблема переобучения
Артече и его коллеги попытались обойти эти ограничения. Несколько лет назад Артече и его соавторы обучили нейронную сеть одному языку, а затем удалили параметры, связанные со строительными блоками слов, так называемыми токенами. Они хранятся в специальном слое нейронной сети, так называемом вставочном слое (embedding layer). Все остальные слои модели ученые не тронули. После стирания токенов первого языка они переобучили модель на втором языке. В результате вставочный слой заполнился токенами второго языка.
Input layer (входной слой) отвечает за прием входных данных и передачу их следующему слою. Это первый слой в нейронной сети. Hidden layers (скрытые слои) можно найти почти в каждом типе нейронных сетей, за исключением некоторых однослойных типов, таких как перцептрон. В нейронной сети может быть несколько скрытых слоев. Количество скрытых слоев и число нейронов в каждом слое может варьироваться в зависимости от сложности решаемой задачи.
Несмотря на то, что модель содержала, казалось бы, несовместимую информацию (вставочный слой обучался на втором языке, а глубокие слои — на втором и первом), переобучение сработало: модель смогла изучить и обработать новый язык. Исследователи предположили, что, хотя вставочный слой хранит информацию, специфичную для слов, используемых в языке, более глубокие уровни нейросети хранят более абстрактную информацию о понятиях, лежащих в основе человеческого языка, что и помогает модели выучить второй язык.
«Мы говорим на разных языках, но живем в одном мире. Мы концептуализируем одни и те же вещи разными словами», — говорит Ихонг Чен, ведущий автор работы. «Вот почему в модели присутствуют похожие рассуждения, но на более высоком уровне. Яблоко — это что-то сладкое и сочное, а не просто слово».
Искусство забывать
Хотя модель с забыванием оказалась достаточно эффективной, чтобы добавить новый язык к уже обученной модели по-прежнему требовалось много лингвистических данных и большие вычислительные мощности. Ученые попытались научить модель правильно забывать: вместо обучения, однократного стирания вставочного слоя и последующего повторного обучения, они решили периодически сбрасывать вставочный слой во время первоначального обучения. «Благодаря этому вся модель обучается забывать», — говорит Артече. — «Это означает, что когда вы хотите добавить к модели еще один язык, это сделать проще, потому что вы уже обучали модель правильно забывать и заново доучиваться на пустом слое. Она к этому готова».
Исследователи взяли широко используемую языковую модель RoBERTa, обучили ее, используя свою технику периодического забывания, и сравнили с производительностью той же модели, но обученной с использованием стандартного подхода, то есть, без забывания. Модель с забыванием показала себя немного хуже, чем обычная, получив оценку 85,1 по сравнению с 86,1 по общему показателю языковой точности. Затем ученые переобучили модели на других языках, используя гораздо меньшие наборы данных — всего 5 миллионов токенов, а не 70 миллиардов, которые они использовали во время обучения первому языку. Точность стандартной модели снизилась в среднем до 53,3, а модели с забыванием упала только до 62,7. То есть модель с забыванием показала себя несколько лучше.
Модель с забыванием показала себя намного лучше, когда команда ввела вычислительные ограничения во время переобучения. Когда исследователи сократили продолжительность обучения со 125 000 шагов до всего лишь 5 000, точность модели с забыванием снизилась в среднем до 57,8, в то время как точность стандартной модели упала до 37,2, что не лучше, чем случайная выборка.
Понимание языка
Команда пришла к выводу, что периодическое забывание, по-видимому, улучшает модель. «Поскольку модель забывает и переучивается во время обучения, обучать сеть чему-то новому становится легче», — говорит Евгений Никишин, исследователь Mila, исследовательского центра глубокого обучения в Квебеке. Это говорит о том, что когда языковые модели обучаются понимать язык, они делают это на более глубоком уровне, чем просто сопоставление значений слов.
Этот подход аналогичен тому, как работает наш мозг. «Человеческая память в целом не очень хороша для точного сохранения больших объемов информации. Вместо этого люди склонны запоминать суть нашего опыта, абстрагируя и экстраполируя его», — говорит Бенджамин Леви, нейробиолог из Университета Сан-Франциско. — «Включение в ИИ процессов, похожих на происходящие в мозге человека, таких как адаптивное забывание, — это один из способов добиться более гибкой работы модели ИИ».
Эта модель может многое сказать и о том, что такое вообще «понимание». Артече надеется, что более модели с забыванием помогут применить последние достижения в области искусственного интеллекта к большему количеству языков. Хотя модели ИИ хорошо справляются с русским, испанским или английским языками, то есть с такими, на которых накоплен огромный объем текстов, модели не слишком хороши при работе, например, с родным языком Артече — баскским, на котором говорят на северо-востоке Испании. «Большинство моделей крупных технологических компаний не справляются с этой задачей», — говорит Артече. — «Адаптация существующих моделей к баскскому языку — это правильный путь».