21.04.2006, 00:00

Говорящая машина: Легкости перевода

Когда отважные астронавты находят на планете разумную жизнь, они незамедлительно достают из кармана электронный транслятор. Умная машинка кряхтит, шипит, щелкает, а потом начинает переводить. С небольшими огрехами, конечно, но понять «братьев по разуму» все-таки можно...

Редакция сайта

Теги:

Астронавты

Аэропорт

База данных

Microsoft

Микрофон

Так или примерно так развивается сюжет большинства научно-фантастических романов, написанных в 60-е годы прошлого века. Многое из предсказанного тогда фантастами уже стало реальностью — мобильные телефоны, Internet, боевые лазеры... А вот маленькие машинки, переводящие с одного языка на другой устную речь в режиме реального времени, до сих пор так и остаются несбыточной мечтой человечества. Весь вопрос — почему?

Необычайные приключения русских в Штатах

Несмотря на то, что работы в области машинного перевода ведутся с 40-х годов прошлого века, первые карманные переводчики появились на прилавках только в 1990-х, когда стало возможно запихнуть большой объем памяти в маленький корпус портативного компьютера.

Пальма первенства в их разработке принадлежит американской фирме Ectaco, основанной выходцами из бывшего СССР. Начав с производства портативных электронных словарей Language Teacher, русские инженеры приступили к выпуску самых настоящих лингвистических мини-компьютеров. В 1999 году Partner ER586HT завоевал Гран-при на 1999 CES Innovation Award. Воодушевленные успехами специалисты Ectaco заявили о том, что приступают к разработке «универсального голосового переводчика». В 2001 году первая модель UT-103, переводящая устную английскую речь на немецкий, французский и испанский, была представлена широкой публике, но — увы! Говорящая машинка не оправдала возлагавшихся на нее надежд. «В ее памяти было заложено несколько тысяч наиболее часто употребляемых в поездках фраз, распределенных по темам, — покупки, осмотр достопримечательностей и т. д., — вспоминает вице-президент Консорциума российских речевых технологий, генеральный директор фирмы "Истрасофт" Эммануил Кнеллер. — Хозяин произносил фразу на английском, переводчик пытался подобрать аналог, но делал это не очень хорошо, поскольку ни выделение звуков и фонем, ни транскрибирование его программой предусмотрены не были. В общем, обычный фразовый разговорник». Тем не менее усилия, потраченные на его создание, не были напрасными, универсальными переводчиками заинтересовался Пентагон.

Взять языка и разговорить

В начале ХХI века американское Агентство передовых оборонных исследований DARPA (Defense Advanced Research Projects Agency), которому обязан своим существованием Internet, приступило к финансированию работ по созданию двустороннего голосового переводчика Phraselator. Предполагалось, что он будет переводить не отдельные слова, а целые фразы, соотнося их с общим контекстом разговора. Применяемая для этого технология Interlingua анонсировалась как «большой шаг на пути к созданию искусственного интеллекта». Подрядчиками выступили такие известные фирмы, как Applied Data Systems и VoxTec. В 2002 году оборонное ведомство США получило первые фразеляторы и незамедлительно опробовало их в Афганистане. Однако испытания с треском провалились. Фразелятор хорошо понимал команды хозяина и даже мог перевести их на 40 языков мира. К примеру, с выражением сказать мятежным талибам: «Сдавайтесь, вы окружены!», но вот их ответы для американцев по-прежнему оставались загадкой.

Американские военные были обескуражены неудачей, но и не думали отступать. К разработке универсального переводчика подключилось Исследовательское агентство ВМФ США. В 2003 году созданная им компания SpeechGear разработала технологию Compadre Language Translation. Устройство Camara фотографировало и распознавало незнакомые письмена. Электронный словарь Interprete, установленный на КПК, занимался пословным переводом. Портативный же прибор Interact осуществлял двусторонний перевод произнесенных фраз. Разработчики утверждали, что в отличие от всех ранее созданных трансляторов, подбирающих фразы из словарей, Interact занимается контекстным переводом. Однако процент ошибок был столь высок, что в широкое производство данная система запущена так и не была.

Единственным портативным переводчиком, взятым на вооружение американскими силовиками, стал доработанный и модифицированный Phraselator P2 от компании VoxTec. В 2004 году им вооружились полицейские Миннесоты. В электронный переводчик были заложены фразы на 15 языках, которые могли потребоваться полицейскому. При этом прибор ловил фразы полицейского на слух и воспроизводил их на другом языке через динамик. Кроме того, фразелятор произносил заранее заготовленные фразы, которые человек мог выбрать из длинного списка простым нажатием кнопки. И хотя обратный перевод в модифицированной модели предусмотрен не был, полицейские остались довольны. «Все лучше, чем часами ждать переводчика, задержанным же можно задавать вопросы, на которые можно ответить только "да" и "нет", — философски заметил один из представителей закона.

Поговори со мною, робот!

Пока в Новом Свете безуспешно пытались создать карманный голосовой переводчик, это удалось японцам. В 2002 году к разработке «персонального цифрового ассистента», способного слышать и переводить устную речь с одного языка на другой, приступила компьютерная корпорация NEC. В 2004-м ее усилия увенчались успехом. Мини-компьютер e-Navi способен переводить с японского языка на английский и наоборот в режиме реального времени. Турист наговаривает фразу в микрофон, аналитический блок портативного компьютера молниеносно разбирает ее по полочкам и подбирает соответствующий аналог. Синтезатор озвучивает полученный перевод с задержкой в несколько секунд. Как отмечает с гордостью менеджер компании NEC Крис Шимизу, «в голосе робота никакой машинности нет, он весьма сильно напоминает человеческий, точность же перевода приближается к 100%, и это при том, что e-Navi не требует предварительной записи голоса пользователя, что характерно для большинства аналогичных устройств». Также e-Navi включает в себя функции коммуникатора и снабжен подробными путеводителями. Плохо одно — себестоимость чудо-компьютера очень высока. Именно поэтому он до сих пор не поступил в свободную продажу. Познакомиться с e-Navi можно только в токийском аэропорту Narita, а также в некоторых туристических центрах Японии, где его может взять в аренду любой желающий.

Впрочем, в ближайшее время ситуация может измениться. Весной 2005 года корпорация NEC представила широкой публике свое последнее достижение. Улучшенная версия персонального робота-партнера PaPeRo 2005 имеет 8 микрофонов, что позволяет ей без помех воспринимать речь хозяина, игнорируя эффект эха, и без промедления переводить ее на чужой язык. Также PaPeRo воспринимает рукописные тексты и картинки-идиограммы, оказавшиеся в поле зрения его видеокамер. Разработчики уверяют, что новые технологии позволят существенно снизить цену робота и через 5−10 лет он появится в каждой японской семье. Впрочем, в истории с портативными универсальными переводчиками не все так просто.

Кустарник посетил Москву

Самая большая проблема, которую приходится решать разработчикам трансляторов, — качество перевода. История о том, как первые модели переводили типичное английское приветствие «How do you do?» фразочкой «Как ты это делаешь?», а стандартный ответ «All right!» — «Всегда правой!», давно стала притчей во языцех, но и сейчас ляпсусов хватает. Достаточно сказать любому суперсовременному переводчику простую фразу: «Yesterday Bush visited Moscow», и ответ не заставит себя долго ждать: «Вчера кустарник посетил Москву». Причина проста — произносятся эти слова абсолютно одинаково, а анализировать контекст речи карманные переводчики так и не научились. И это только один из аспектов. «Для того чтобы создать универсальный переводчик, необходимо решить проблему ограниченного объема памяти, распознавания речи, перевода ее в текст и на чужой язык», — рассказывает научный директор Центра речевых технологий Сергей Коваль.

Первая проблема решается довольно легко — каждый год появляются все более совершенные микросхемы, флэш-карты и т. д. Системы перевода устной речи в письменную, так называемые диктовочные блокноты, также уже созданы — правда, только на Западе. «Русский язык весьма сильно отличается от английского, немецкого, французского. В нем, к примеру, произносятся правильно только ударные слоги, остальные образуют промежуточные звуки. Окончания практически не произносятся, в отличие от того же английского, где они звучат весьма четко, иначе и нельзя — смысл слова изменится до неузнаваемости, так что воспользоваться алгоритмами, созданными для европейских языков, мы не сможем, — поясняет Эммануил Кнеллер. — Нужно сначала создать большую лингвистическую базу данных, написать специальные алгоритмы, а потом уже можно думать о производстве диктовочных блокнотов для русского языка. Но все это требует капиталовложений, и немалых. На Западе в подобные исследования были вложены миллиарды, вот они и получили результат, а у нас этим никто серьезно не занимается».

Однако самой большой проблемой по-прежнему остается перевод текста с одного языка на другой. «Сейчас все переводчики работают по одному и тому же принципу. Берется база текстов, устанавливается ассоциативная связь между отдельными словами — какие из них как сочетаются, какие выражения как переводятся, — рассказывает Сергей Коваль. — Если текст близок к исходной базе данных, носит формальный характер, перевод получается достаточно точным. Сложности начинаются, когда надо перевести произвольный текст с массой жаргонных слов и неправильными грамматическими конструкциями. Простым перебором вариантов здесь не обойтись, необходимо понимать смысл, то есть отслеживать взаимосвязь сложных структур, включающих в себя не одно и не два слова, проводить морфологический и синтаксический анализ текста. Написать же подобные алгоритмы невозможно, не разобравшись, как с такой работой справляется человеческий мозг, как организовано мышление, а это требует фундаментальных исследований, которые весьма дорого стоят».

Пока что, по оценкам специалистов Microsoft, современные электронные переводчики способны распознать 98% слов английского языка, обозначающих цифры, а человек — 99%; что касается формальной, газетной речи, то это соотношение будет 85% к 93−95%; неформальной, свободной речи — 70% к 90%. Однако в ближайшее время отставание будет ликвидировано. Через 1−2 года переводчики начнут распознавать цифры столь же хорошо, как люди, через 5−10 лет они научатся в совершенстве понимать формальную речь, а через 20 лет — и неформальную.