Ошибочные машинные переводы забивают интернет словесным мусором
Интернет, безусловно, сделал людей ближе и неизмеримо обогатил глобальные коммуникации, торговлю, исследования и развлечения. Но новая работа напоминает нам, что вместе с прогрессом приходят и проблемы.
Исследователи из лаборатории искусственного интеллекта Amazon Web Services и Калифорнийского университета в Санта-Барбаре собрали более 6 миллиардов предложений в сети. Ученые показали, что более половины из случайно выбранных предложений являются переводами с одного языка на другой, и эти переводы часто содержат грубые ошибки и неточности. Многие переводы являются многошаговыми (таких шагов ученые находили иногда до восьми-девяти). С каждым последующим переводом на новый язык, результаты становятся все хуже.
Работа получила не вполне академическое название: «Шокирующее количество онлайновых машинных переводов».
«Низкое качество этих переводов указывает на то, что они, вероятно, были созданы с использованием машинного перевода без участия человека», — сообщают авторы. — «Результат нашей работы вызывает серьезные опасения по поводу обучения Больших языковых моделей на многоязычных данных, собранных в Интернете».
ИИ-моделям не на чем учиться
Исследователи заявили, что тексты не только переводятся искусственным интеллектом, но и создаются с помощью ИИ.
Ученые заметили, что по мере того, как триллионы бит данных обрабатываются для операций по обучению ИИ, языки, недостаточно представленные в сети, например, языки африканских стран, столкнутся с серьезными проблемами в создании надежных переводчиков, основанных на больших языковых моделях. Поскольку ресурсов на таких языках создано мало, языковые модели в значительной степени обучатся на неточных переводах, выполненных ИИ. А таких переводов становится все больше и больше с каждым днем и каждым часом.
Мехак Даливал, соавтор работы говорит: «На самом деле мы заинтересовались этой темой, потому что несколько коллег, которые занимаются машинным обучением и являются носителями редких языков, отметили, что большая часть интернет-ресурсов на их родных языках, похоже, создана с помощью машинного перевода или сгенерирована ИИ. Мы должны предупредить, что необходимо помнить: контент, который вы просматриваете в сети, мог быть создан машиной, — рука человека его даже касалась».
Ученые подчеркнули: «Машинно-генерируемые переводы не только доминируют в общем объеме переводного контента, но более того — они составляют значительную часть всего онлайн-контента на этих языках». Точность материала, сгенерированного ИИ, существенно ниже, чем у оригинальных текстов. Но именно на нем будут продолжать обучаться языковые модели, а это ведет к дальнейшему снижению точности и повышает вероятность галлюцинаций ИИ.
Ученые привели такой пример. Они взяли английскую фразу: «You can take over-the-counter ibuprofen as needed for pain». Ее перевод на русский, выполненный Google Translator, вполне удовлетворительный: «При необходимости от боли вы можете принимать ибупрофен, отпускаемый без рецепта». Но русский язык очень широко представлен в интернете и доступен для обучения ИИ-моделей. А вот перевод на армянский сильно озадачил: «От боли при необходимости можно брать противотанковую ракету» («You may take anti-tank missile as much as you need for pain»). Даже трудно сказать, что имелось ввиду. А на таких текстах учатся Большие языковые модели.