26.04.2023, 20:50

От системы Кирхера до «электронного мозга»: как развивался машинный перевод

Каждый из нас хоть раз пользовался онлайн-переводчиком. Возможность в любое время дня и ночи даром переводить тексты, даже не зная иностранных языков, больше не кажется нам чудом. Но всего 70 лет назад никакого машинного перевода не было, а саму идею многие восприняли в штыки. Все изменилось 7 января 1954 года, когда Джорджтаунский университет и компания IBM продемонстрировали компьютер, умеющий переводить. Вспоминаем, как зародился машинный перевод вместе с сотрудником факультета компьютерных наук НИУ ВШЭ Антоном Басовым.

Редакция сайта

Теги:

Нетленка

История

Технологии

Изобретения

США

От системы Кирхера до «электронного мозга»: как развивался машинный перевод

Getty images

Машинный перевод... до машин

Перевод появился тогда же, когда появился язык. А машинный перевод? Должно быть, не раньше, чем были созданы компьютеры? И да, и нет. Машинный перевод действительно появился только вместе с компьютерами, но его предыстория начинается намного раньше.

История машинного перевода восходит к девятому веку, когда арабский ученый и «отец арабской философии» Аль-Кинди предложил взламывать шифры с помощью частотного анализа текста, то есть сравнивать частоту употребления букв в обычном языке с частотой употребления символов в шифровке. Так Аль-Кинди заложил основы криптографии, которая, как мы увидим дальше, неразрывно связана с машинным переводом.

Другим истоком машинного перевода стали работы по созданию универсального языка. В таком языке каждому слову соответствовало бы только одно понятие. В отличие от естественных языков, универсальный язык был бы лишен двусмысленностей, а поэтому недопонимание между людьми, говорящими на нем, было бы невозможно. Впервые идею такого языка выдвинул великий Рене Декарт.

Усилия по созданию универсального языка ни к чему не привели — все языки оказывались слишком сложными и недостаточно точными. Однако некоторые ученые пошли дальше и стали создавать системы, позволяющие общаться носителям разных языков. Такую систему описал в 1663 году ученый-иезуит Афанасий Кирхер. Он придумал ее после разговора с императором Священной Римской империи Фердинандом III. В империю входило множество стран с разными языками, поэтому межъязыковое общение играло важную роль.

В системе Кирхера каждому понятию соответствовал номер. В словаре под этим номером можно было найти слова пяти языков (латинского, французского, немецкого, итальянского и испанского), соответствующие данному понятию. Зная только один из этих языков, человек мог, пользуясь пронумерованным списком понятий, переводить текст на любой другой язык. Физическим воплощением системы стал «языковой ковчег» (Arca Glottotactica), в котором многоязычный словарь размещался на отдельных дощечках, которые можно было располагать в нужном порядке. Впрочем, ни система Кирхера, ни системы его современников Кейва Бека и Иоганна Бехера не снискали успеха — они были слишком несовершенны и недостаточно помогали процессу перевода.

Языковой ковчег Афанасия Кирхера

Журнал Isis

Механические переводчики

Идея упрощения перевода с помощью механических устройств оказалась забыта вместе с идеей универсального языка — переводчики справлялись сами. Однако к 1930-м годам поток информации на разных языках стал увеличиваться. Благодаря телеграфу, телефону и радио информация распространялась быстрее. Распространение грамотности и увеличение выпуска журналов и газет привело к тому, что ее потребителей стало больше. И хотя переводчики все еще могли справиться сами, уже возникла идея механизации перевода.

К 1930-м годам техника проделала большой путь от «языкового ковчега» Кирхера. Появилась электротехника и электроника. Машины научились управлять дорожным движением, зажигать прожектора на аэродроме при приближении самолета, поддерживать курс корабля, печь хлеб и собирать автомобили. В распоряжении изобретателей оказались реле, моторы, радиолампы и фотоэлементы. И к 1935 году два изобретателя независимо друг от друга запатентовали механизмы для перевода.

Георгий (он же Жорж) Арцруни родился в Армении в 1893 году. Он изучал инженерию в Петрограде, а в 1922 году эмигрировал во Францию. С 1929 года он работал над машиной, которую называл «механический мозг» (cerveau mécanique). Это устройство предназначалось для хранения и поиска информации — сегодня мы бы назвали его поисковиком. Среди возможных применений своей машины Арцруни перечислял составление телефонных справочников и железнодорожных расписаний, печать билетов, шифрование — и перевод.

«Механический мозг» Георгия Арцруни

CafeTran

Памятью машины служила бумажная лента, на которой, как в системе Кирхера, записывались слова на разных языках. На одной строке находились слова, соответствующие одному понятию. Параллельно первой ленте шла вторая, на которой каждому понятию соответствовала определенная группа отверстий. Искомое слово вводилось в машину с помощью клавиатуры и кодировалось набором штырьков. Затем запускался мотор, и машина сравнивала наборы отверстий на второй ленте с расположением штырьков. Когда обнаруживалось совпадение, машина останавливалась, показывая в окошках слова с первой ленты.

Арцруни запатентовал свою машину в 1935 году. В 1937 году на всемирной выставке в Париже машина была отмечена дипломом. Несколько государственных ведомств — почта, железные дороги, министерство обороны — заключили с Арцруни контракты на разработку машин, однако Вторая мировая война и оккупация Франции помешали им осуществиться. Появление электронных компьютеров поставило крест на работе Арцруни — «механический мозг» проигрывал «электронному».

В том же 1935 году советский патент на «машину для подбора и печатания слов при переводе с одного языка на другой» получил Петр Смирнов-Троянский. Его судьба очень похожа на судьбу Арцруни — он родился в 1894 году, учился в Санкт-Петербургском университете; историки даже предполагают, что Смирнов-Троянский и Арцруни могли знать друг друга (хотя подтверждений этого нет). После революции Троянский учился в Институте красной профессуры, участвовал в составлении Большой советской и Технической энциклопедий.

Машина Троянского представляла собой наклонный стол, на котором располагалась уже привычная нам бумажная лента с многоязычным словарем. Перед столом находился фотоаппарат и пишущая машинка. Ленту со словарем вручную протягивали до нужного слова и фотографировали его. Одновременно — и в этом самое важное отличие машины Троянского от механического словаря Арцруни — на пишущей машинке печатали особые знаки, описывающие морфологические признаки слова (число, род и так далее).

После этого две ленты — одна со словами, другая с морфологическими признаками — попадали к переписчику. Он писал связный текст, изменяя слова с первой ленты согласно признакам со второй. После этого текст попадал к литературному редактору.

Эскиз машины для перевода из патента Петра Смирнова-Троянского

FindPatent

Троянский ходатайствовал перед Академией наук СССР о постройке своей машины, но академики сочли, что она недостаточно совершенна и не справится с переводом многозначных слов и оттенков значения (эту претензию к машинному переводу будут предъявлять много раз). Машина так и не была построена, а работы Троянского забыты до середины 1950-х годов. Как и машина Арцруни, машина Троянского не могла соревноваться с электронным компьютером.

Зарождение идеи

К моменту окончания Второй мировой войны сложились все условия для появления машинного перевода. Криптография сыграла важную роль в войне. Самым известным успехом в этой области стал взлом шифрования машины «Энигма». Ее взломали английские ученые во главе со знаменитым Аланом Тьюрингом с помощью «Бомбы» — электромеханического устройства, которое считается прототипом компьютера.

Одновременно с этим появлялись и другие вычислительные устройства, сначала электромеханические, а затем полноценные электронные компьютеры. Они гораздо лучше механических устройств могли обрабатывать большие объемы информации, в том числе текста. Наконец, работы Клода Шеннона и Норберта Винера, опубликованные в 1948 году, стали теоретической основой обработки информации с помощью компьютеров.

Вместе с тем росло количество материалов, нуждающихся в переводе. Ученые понимали это лучше других, ведь результаты исследований публиковались на разных языках. Поэтому неудивительно, что идею автоматизации перевода с помощью компьютера первым сформулировал ученый.

Уоррен Уивер

Rockefeller Foundation

Уоррен Уивер успел оставить свой след во многих областях науки. Инженер по образованию, он занимался исследованиями в области электромагнитного поля, теории вероятностей и статистики. Именно он придумал в 1938 году термин «молекулярная биология». Во время Второй мировой Уивер работал в Бюро научных исследований и развития, где познакомился с вопросами криптоанализа и создания компьютеров. После войны он занялся теорией информации, работая с Клодом Шенноном.

Винер ответил, что эта идея едва ли осуществима, но Уивера это не остановило.

6 марта, всего через два дня после письма, Уивер встретился с Эндрю Бутом, молодым английским математиком. Бут просил финансирование для постройки компьютера в Англии — Уивер возглавлял отдел естественных наук Фонда Рокфеллера, который спонсировал научные исследования. Уивер ответил, что Фонд едва ли будет спонсировать обычный компьютер, но может быть заинтересован в применении компьютера для решения невычислительных задач — например, задачи машинного перевода.

Эндрю Бут и его коллеги Кэтлин Бриттен и Ксения Свитинг

I Programmer

Бут еще в 1946 году получил от Фонда Рокфеллера грант на поездку в США для изучения компьютеров. В 1947 году он и его коллега Кэтлин Бриттен работали, в том числе, над программой для автоматического перевода, но только на бумаге — компьютеров все еще было слишком мало для подобных экспериментов (кстати, в том же 1947 году Кэтлин написала первый в истории язык ассемблера для компьютера, построенного Бутом).

Вернувшись из США, Бут познакомился с Ричардом Риченсом. Он был редактором научного журнала и работал над вопросом составления и поиска аннотаций к научным статьям. В его распоряжении не было компьютера, поэтому он использовал оборудование для сортировки и учета перфокарт. Тогда же Риченс задумался о применении перфокарт для перевода.

Весной 1948 года Уивер посетил Лондон, где познакомился с работами Бута, Бриттен и Риченса. Несмотря на то, что система была работоспособна, результаты его не впечатлили. «Они, по крайней мере сейчас, не обеспокоены проблемами многозначности, порядка слов, идиом, — писал Уивер. — Они решают лишь проблему механизации словаря». Несмотря на это, в том же году Бут написал отчет о своей поездке для Фонда Рокфеллера, где просил средства на постройку британского компьютера и включил машинный перевод в список исследовательских задач.

Поиск начинается

В июля 1949 года Уивер написал меморандум «Перевод» (Translation), где изложил свои взгляды на автоматизацию перевода. Он рассказал о своей переписке с Винером и работах Бута. По его мнению, перевод очень похож на дешифровку. Ссылаясь на работу Шеннона по теории информации, Уивер писал: «Хочется думать, что книга на китайском языке — это на самом деле книга на английском, просто зашифрованная "китайским кодом"». Он полагал, что можно найти некоторые единые для всех языков «инварианты» и осуществлять перевод с их помощью. Разве не похожи эти утверждения на идеи философов 17 века, пытавшихся создать универсальный язык?

Меморандум Уивера был разослан по многим специалистам в области языка, перевода, математики и компьютерных наук. Многие отнеслись к идее механического перевода прохладно, но некоторые встретили ее с энтузиазмом. Среди последних был американский ученый Ванневар Буш, о котором мы уже рассказывали в тексте про Дугласа Энгельбарта. Он считал, что при использовании электронного компьютера ни многозначность, ни порядок слов не являются проблемой для машинного перевода. В декабре 1949 года журнал Scientific American опубликовал меморандум Уивера в виде научно-популярной статьи.

После публикации меморандума работа над машинным переводом закипела. Исследователи разрабатывали разные варианты программ. Так, Эдвин Рейфлер предложил дать в помощь переводящей машине двух редакторов. Один читал текст до перевода, приводя его к стандартному виду — убирая многозначные слова, исправляя порядок слов и так далее. Другой редактор переписывал текст после машинного перевода. Другие — Уильям Лумис, Энтони Эттингер, Абрахам Каплан, Уильям Буль — предлагали свои решения.

В 1951 году Иегошуа Бар-Хиллел устраивается на работу в лабораторию электроники Массачусетского технологического института. Бар-Хиллел приехал из Израиля, изучая философию, познакомился с работами Шеннона и Винера и получил грант (возможно, при помощи Уивера) на изучение машинного перевода. С этой целью он посетил несколько американских университетов, где шли работы, и решил провести конференцию по машинному переводу в июне следующего года.

Специально для конференции Бар-Хиллел подготовил доклад о текущем состоянии дел в области. Он считал, что полноценный машинный перевод не может появиться в ближайшем будущем — есть слишком много технических проблем. А вот создать систему для перевода, которая выдавала бы перевод приемлемого качества для последующей редактуры вполне возможно.

В апреле 1952 года Бар-Хиллел получил очередной грант от Фонда Рокфеллера (опять Уивер!) и приступил к организации первой конференции по машинному переводу. Она проходила с 17 по 20 июня 1952 года. Среди участников были представители компаний Rand Corporation и IBM, Калифорнийского университета в Лос-Анджелесе, Вашингтонского и Чикагского университетов. Из Англии приехал Эндрю Бут, а Леон Достерт (к нему мы еще вернемся) представлял Джорджтаунский университет.

После конференции работа закипела с новой силой. Теперь уже не было сомнений, что компьютер будет переводить. Но кто же добьется этого первым?

Experimentum crucis

В 1952 году Леон Достерт был руководителем Школы языков и лингвистики в Джорджтаунском университете. Он родился во Франции, рано осиротел и подростком переехал в США. К изучению языков его подтолкнула немецкая оккупация в годы Первой мировой войны. Достерт был вынужден ходить в немецкую школу и так хорошо освоил язык, что стал переводчиком между немецкими властями и местным населением.

В США Достерт окончил Западный колледж в Лос-Анджелесе и Джорджтаунский университет. В годы Второй мировой он служил переводчиком при высокопоставленных военных, в том числе генерале (и будущем президенте) Дуайте Эйзенхауэре. После окончания войны Достерт принимал участие в организации Нюрнбергского процесса — он организовал систему синхронного перевода, о которой один из подсудимых, Герман Геринг, отозвался так: «Эта система очень эффективна, но она сократит мне жизнь».

Леон Достерт (второй слева) и генерал Дуайт Эйзенхауэр (сидит)

Occidental College

Пока шел Нюрнбергский процесс, Достерт успел организовать систему синхронного перевода для недавно учрежденной Организации объединенных наций. В 1949 году он вернулся в Джорджтаун, чтобы создать Школу языков и лингвистики.

На конференцию 1952 года Достерт отправился как специалист по синхронному переводу. К идее машинного перевода он, как и многие коллеги, отнесся скептически, но конференция убедила Достерта в том, что проблему машинного перевода нужно решать на практике, а не в теории. Он сразу же принялся за работу. Одним из его многочисленных друзей был Томас Уотсон-старший, многолетний руководитель компании IBM. Как раз в 1952 году она выпустила на рынок свой первый электронный компьютер IBM 701. Достерт заручился поддержкой Уотсона и привлек к проекту Катберта Хадра и Питера Шеридана из IBM. Тем временем в Джорджтауне Пол Гарвин занялся лингвистической частью задачи.

В то время уже шла холодная война. США и СССР из союзников в войне превратились в соперников. Американцы хотели знать, что происходит за железным занавесом, особенно — как развивается советская наука. Для этого нужны были переводчики с русского, а их не хватало. Достерт рещил, что компьютер вполне справится с переводом научных текстов с русского на английский.

На разработку системы ушел весь 1953 год. Был составлен очень ограниченный словарь — всего 250 слов, и система из шести правил. Компьютер научили разбирать слова по составу, выбирать нужное значение у многозначных слов, добавлять в перевод артикли, которых нет в русском языке.

IBM 701

ITC

Наконец, 7 января 1954 года работа компьютера-переводчика была впервые продемонстрирована публике. В центральном офисе IBM в Нью-Йорке, где был установлен первый IBM 701 («машина размером с теннисный корт», как писали газеты), собрались ученые из Джорджтауна, руководство компании во главе с Уотсоном и репортеры.

Оператор, ни слова не знавшая по-русски, латиницей записывала на перфокартах русские предложения:

«Качество угля определяется калорийностью».
«Обработка повышает качество нефти».
«Международное понимание является важным фактором в решении политических вопросов».

Перфокарты вводились в компьютер, который через несколько секунд печатал перевод:

The quality of coal is determined by calory content.
Processing improves the quality of crude oil.
International understanding constitutes an important factor in decision of political questions.

Ввод данных на перфокарты и печать готового перевода

Semantic Scholar

Образец перфокарты; текст на русском сверху

Semantic Scholar

На следующий день все крупные американские газеты от The New York Times до Christian Science Monitor восторженно описывали демонстрацию, которая получила имя «Джорджтаунского эксперимента». Машинному переводу предсказывали великое будущее. IBM планировала создать особый компьютер для перевода. Ожидалось, что через пять лет появятся машины, способные сами читать текст и переводить его на несколько языков.

Что было дальше

Надежды оказались преждевременны. Ни через пять, ни через десять лет не появилось систем, которые могли бы без помощи человека выдавать полноценный перевод. Однако наглядная демонстрация того, что компьютер способен переводить, сделала свое дело. В 1954 году начал выходить первый журнал Mechanical Translation. В 1955 году вышла первая книга — сборник статей конференции 1952 года с предисловием Бута и меморандумом Уивера. Конференция, журнал, книга — машинный перевод окончательно оформился как область науки.

В Советском Союзе быстро узнали о джорджтаунском эксперименте. Уже в 1955 году исследовательская группа под руководством директора Института научной информации Дмитрия Панова осуществила первый перевод с английского языка на русский на ЭВМ БЭСМ. Уже к концу 1950-х годов в Москве и Ленинграде появились несколько лабораторий машинного перевода.

Большая электронная счетная машина БЭСМ

БЭСМ-6

На Западе успех эксперимента окрылил разработчиков. В том же 1955 году первые результаты получили Эндрю и Кэтлин Бут (Кэтлин Бриттен и Бут поженились в 1950 году) — их программа переводила с английского на французский. Свои исследовательские группы по машинному переводу появились во многих странах по обе стороны железного занавеса. Однако за десять лет исследований ожидаемый результат — компьютер, делающий высококачественный перевод без участия человека — так и не был достигнут.

В 1964 году правительство США создало Консультативный комитет по автоматической обработке языков, чтобы оценить перспективы машинного перевода. Отчет комитета 1966 года показал, что машинный перевод был более медленным, менее точным и вдвое превосходил по стоимости обычный. Отчет привел к почти полному прекращению финансирования работ в США. Наступила своего рода «зима машинного перевода», подобная зиме искусственного интеллекта.

Впрочем, ничто не вечно. Интерес к машинному переводу вновь возник в США уже десять лет спустя (а в других странах работы и не прекращались). Его развитие спустя несколько десятилетий привело нас к таким системам, как Google Translate, Яндекс Переводчик и DeepL. Прожившая сто лет Кэтлин Бут наверняка была довольна, видя, во что превратилась работа, начатая ею и еще несколькими энтузиастами на заре компьютерной эры.