Как IT-специалисты пытаются сохранить в Сети исчезающие языки

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в Сети развивается совершенно противоположным образом.
Как IT-специалисты пытаются сохранить в Сети исчезающие языки
Getty Images

В безопасности

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических  литературных  произведений  дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Однако  начало  современному  статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Специалисты ЮНЕСКО выделяют девять факторов, которыми определяется угроза исчезновения для языка. Помимо сокращения числа носителей среди них фигурирует ограниченность материалов, необходимых для освоения языка и пользования им, будь то книги, печатные СМИ или интернет-сайты. Это же ставит сложный барьер перед создателями систем для машинного перевода не только с исчезающих, но и просто с малых языков, таких как чувашский или адыгейский. Миллионы примеров, необходимых для обучения компьютерных алгоритмов, здесь просто неоткуда взять.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«Именно тут мы и подумали, что языки можно рассматривать не как отдельные, изолированные друг от друга системы, а с учетом их связей друг с другом, – рассказал нам разработчик группы машинного перевода "Яндекса" Антон Дворкович. – Получается, что если мы хотим построить перевод для языка, по которому данных недостаточно, то стоит обратиться к более крупному родственному языку или к близкому, уже "освоенному" машиной. Лексика, морфология, синтаксис – отдельные элементы заимствуются из него для заполнения "пустот" в модели малого языка».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В системе, построенной Антоном и его коллегами, ядро для перевода составляется на основе тех текстов на малом языке, которые удается найти. Сопоставляя параллельные фразы, обычно удается выделить значения ключевых слов и их формы, особенности употребления в том или ином контексте, некоторые правила морфологии и т. д. Затем к ним «подключаются» уже готовые модели родственных языков: у одного можно заимствовать принципы образования множественного числа, у другого – склонение или значение не встретившегося в базовых текстах, но близкого слова и т. д.

На грани

Используя особый подход, в «Яндексе» приступили к созданию механизмов машинного перевода для малых языков России. «Бармаглот нерген лудын, эргым! Тудын янлык да тыге свирлеп», – это на языке луговых марийцев, помимо которого система уже освоила горномарийский и удмуртский, идиш и башкирский. Она не просто использует знакомые слова, но и видоизменяет заимствованные из близких языков. Но и это лишь капля в море. Из тысяч языков мира подавляющее большинство используется лишь немногочисленными локальными группами, и любой из них может оказаться под угрозой исчезновения.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Среди регионов мира, особенно богатых такими вымирающими языками, называют центр и восток российской Сибири. Начиная с 1950-х годов здесь исчезло около десятка языков, и еще несколько десятков готовятся разделить эту судьбу в ближайшие годы.

Нельзя сказать, что озабоченности профессиональных лингвистов остальной мир не замечает. Google по собственной инициативе поддерживает проект Endangered Languages, где собираются данные о языках, находящихся под угрозой. Сервис Microsoft Translator Hub позволяет любому энтузиасту составить и обучить собственную систему переводов, используя заранее заданные программные модули.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Однако пока реализуются такие «гуманитарные» проекты, число природных носителей многих крошечных языков продолжает падать, на некоторых говорят не более нескольких человек в мире. В прошлом такие языки были бы обречены, как сотни предшественников, уже канувших в историю. Но сегодня системы машинного перевода, подобные разработанной в «Яндексе», могут стать для них неожиданным спасением. Пока на таких языках сохранились какие-никакие тексты, пока есть отдельные говорящие на них люди, остается возможность создать «искусственного носителя» – машинную систему, которая хотя и не понимает смысла речи, но способна вполне адекватно использовать слова, которые скоро не будет знать уже никто.

Остается дополнить систему функциями анализа и синтеза речи, голосового ввода-вывода – и мы получим почти живого «лингвистического гомункула», искусственное существо, подобное настоящему носителю. С таким «големом» можно будет вполне полноценно поговорить, как многие «общаются» с электронным голосовым ассистентом Siri.