ИИ-модели говорят на множестве языков, но у них есть родной
Хотя с большими языковые моделями (LLM), такими как ChatGPT от Open AI и Gemini от Google, можно взаимодействовать на любом языке, первоначально они обучены работе с сотнями миллиардов текстовых параметров, в основном, на английском. Некоторые исследователи выдвинули гипотезу, что большую часть внутренней обработки LLM выполняют на английском языке и переводят полученный текст на целевой язык в самый последний момент. Однако доказательств этому до сих пор было мало.
Тестирование Llama
Исследователи Федеральной политехнической школы Лозанны (EPFL) изучили LLM с открытым исходным кодом Llama-2 (Large Language Model Meta AI), чтобы определить, какие языки использовались на каких этапах вычислительной цепочки.
«Большие языковые модели обучены предсказывать следующее слово. Они делают это, сопоставляя каждое слово с вектором чисел, по сути, с точкой в многомерном пространстве данных. Например, слово "the" всегда будет находиться в одной и той же фиксированной точке координат», — пояснил профессор Роберт Уэст, возглавивший исследование.
«Модели объединяют, скажем, 80 слоев идентичных вычислительных блоков, каждый из которых преобразует один вектор, представляющий слово, в другой вектор. В конце этой последовательности из 80 преобразований получается вектор, представляющий следующее слово. Количество вычислений ограничено количеством слоев вычислительных блоков — чем больше вычислений выполняется, тем мощнее ваша модель и тем больше вероятность того, что следующее слово будет угадано правильно».
Как своей новой работе ученые вместо того, чтобы позволить модели завершить вычисления на всех 80 слоях, каждый раз, когда LLM пыталась предсказать следующее слово, Уэст и его команда заставляли ее выдавать ответ после каждого слоя. И тогда ученые увидели, какое слово модель может предсказать еще не дойдя до конца. Ученые ставили различные задачи, например, просили модель переводить с французского на китайский.
«Мы дали LLM французское слово, затем китайский перевод, еще одно французское слово и его, китайский перевод и т. д., чтобы модель знала, что она должна перевести французское слово на китайский. В идеале модель должна выдавать со 100% вероятностью именно китайское слово, но когда мы заставили ее делать прогнозы перед последним слоем, мы обнаружили, что большую часть времени — на промежуточных слоях — LLM предсказывала английский перевод французского слова, хотя английский нигде не упоминался. Только в последних четырех-пяти слоях, LLM выдавала китайский с большей вероятностью, чем английский», — говорит Уэст.
От слов к понятиям
Простая гипотеза заключалась бы в том, что модель сначала переводит весь ввод на английский и в конце переводит на целевой язык, но при анализе данных исследователи пришли к гораздо более интересной теории.
На первом этапе вычислений модель еще не может угадать ни одного слова. Она сосредоточена на работе с входными данными. На втором этапе, когда уже доминирует английский язык, модель как бы выходит в своего рода абстрактное семантическое пространство, где речь идет не о словах, а о других видах представлений, которые связаны с понятиями, универсальными для любого языка и, скорее, являются моделью любого языка. Это важно, потому что для того, чтобы хорошо предсказать следующее слово, модель должна много знать о мире, и один из способов сделать это — иметь такое представление о понятиях.
«Мы предполагаем, что такое представление мира с точки зрения понятий смещено в сторону английского языка. Это имело бы большой смысл, поскольку эти модели учитывали около 90% данных обучения английскому языку. Модели отображают входные слова из входного слоя в более глубокое смысловое пространство понятий, где есть представления о том, как эти понятия соотносятся друг с другом в мире. Но эти понятия связаны аналогично связям английских слов, а не слов на языке ввода», — говорит Уэст.
Монокультура и предвзятость
Ключевой вопрос, который возникает из-за доминирования английского: «Имеет ли это значение»? Исследователи полагают, что да. Существуют серьезные исследования, показывающие, что структуры, существующие в языке, формируют то, как мы конструируем реальность, и слова, которые мы используем, глубоко связаны с тем, как мы думаем. Уэст предлагает начать исследование психологии языковых моделей, в которых люди общались бы с LLM как с людьми и на разных языках расспрашивали их, проводили поведенческие тесты и оценивали степень предвзятости.
«Я думаю, что наше исследование действительно задело за живое, поскольку люди все больше беспокоятся о проблемах возникновения монокультуры. Мы можем потерять очень много, потому что то, что вы не можете выразить на английском языке, останется невыраженным. А это совсем не здорово», — заключил Уэст.