Как IT-специалисты пытаются сохранить в Сети исчезающие языки
В безопасности
Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.
Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.
Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.
Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.
Под угрозой
Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.
Специалисты ЮНЕСКО выделяют девять факторов, которыми определяется угроза исчезновения для языка. Помимо сокращения числа носителей среди них фигурирует ограниченность материалов, необходимых для освоения языка и пользования им, будь то книги, печатные СМИ или интернет-сайты. Это же ставит сложный барьер перед создателями систем для машинного перевода не только с исчезающих, но и просто с малых языков, таких как чувашский или адыгейский. Миллионы примеров, необходимых для обучения компьютерных алгоритмов, здесь просто неоткуда взять.
«Именно тут мы и подумали, что языки можно рассматривать не как отдельные, изолированные друг от друга системы, а с учетом их связей друг с другом, – рассказал нам разработчик группы машинного перевода "Яндекса" Антон Дворкович. – Получается, что если мы хотим построить перевод для языка, по которому данных недостаточно, то стоит обратиться к более крупному родственному языку или к близкому, уже "освоенному" машиной. Лексика, морфология, синтаксис – отдельные элементы заимствуются из него для заполнения "пустот" в модели малого языка».
В системе, построенной Антоном и его коллегами, ядро для перевода составляется на основе тех текстов на малом языке, которые удается найти. Сопоставляя параллельные фразы, обычно удается выделить значения ключевых слов и их формы, особенности употребления в том или ином контексте, некоторые правила морфологии и т. д. Затем к ним «подключаются» уже готовые модели родственных языков: у одного можно заимствовать принципы образования множественного числа, у другого – склонение или значение не встретившегося в базовых текстах, но близкого слова и т. д.
На грани
Используя особый подход, в «Яндексе» приступили к созданию механизмов машинного перевода для малых языков России. «Бармаглот нерген лудын, эргым! Тудын янлык да тыге свирлеп», – это на языке луговых марийцев, помимо которого система уже освоила горномарийский и удмуртский, идиш и башкирский. Она не просто использует знакомые слова, но и видоизменяет заимствованные из близких языков. Но и это лишь капля в море. Из тысяч языков мира подавляющее большинство используется лишь немногочисленными локальными группами, и любой из них может оказаться под угрозой исчезновения.
Среди регионов мира, особенно богатых такими вымирающими языками, называют центр и восток российской Сибири. Начиная с 1950-х годов здесь исчезло около десятка языков, и еще несколько десятков готовятся разделить эту судьбу в ближайшие годы.
Нельзя сказать, что озабоченности профессиональных лингвистов остальной мир не замечает. Google по собственной инициативе поддерживает проект Endangered Languages, где собираются данные о языках, находящихся под угрозой. Сервис Microsoft Translator Hub позволяет любому энтузиасту составить и обучить собственную систему переводов, используя заранее заданные программные модули.
Однако пока реализуются такие «гуманитарные» проекты, число природных носителей многих крошечных языков продолжает падать, на некоторых говорят не более нескольких человек в мире. В прошлом такие языки были бы обречены, как сотни предшественников, уже канувших в историю. Но сегодня системы машинного перевода, подобные разработанной в «Яндексе», могут стать для них неожиданным спасением. Пока на таких языках сохранились какие-никакие тексты, пока есть отдельные говорящие на них люди, остается возможность создать «искусственного носителя» – машинную систему, которая хотя и не понимает смысла речи, но способна вполне адекватно использовать слова, которые скоро не будет знать уже никто.
Остается дополнить систему функциями анализа и синтеза речи, голосового ввода-вывода – и мы получим почти живого «лингвистического гомункула», искусственное существо, подобное настоящему носителю. С таким «големом» можно будет вполне полноценно поговорить, как многие «общаются» с электронным голосовым ассистентом Siri.