Искусственный интеллект научился распознавать азиатские языки лучше человека: корейский, японский и китайский

Мы уже рассказывали, как искусственный интеллект научился распознавать арабский язык. В этот раз мы решили поставить более амбициозную задачу — объяснить, что для ИИ представляют собой азиатские языки.
Искусственный интеллект научился распознавать азиатские языки лучше человека: корейский, японский и китайский

Каждый, кто хоть раз пытался заговорить по-китайски, по-японски или по-корейски, встречался со знаменитым комиксом про «азиатскую письменность».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Попробуй выучить

Японский в этом комиксе — это когда «колюще-режущие буквы смешаны с миленькими петельками», китайский - «разные домики подвергаются атакам всяких летающих устройств», а корейский просто «смеется над тобой». Для человека, незнакомого с азиатской письменностью, эти языки действительно просто набор иероглифов, которые отличаются только вызывающими ассоциациями.

Мы хотим начать текст с сенсационного факта, который нам очень нравится: корейский язык состоит из букв, а не иероглифов! Хотя его письменность и кажется похожей на иероглифическую, на самом деле в наши дни она осталась только в двух странах в мире — в Японии и Китае. У корейцев есть алфавит под названием Хангыль, в котором 40 букв — 19 согласных и 21 гласная. Отличительной особенностью хангыля является то, что буквы объединяются в группы, примерно соответствующие слогам.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Как представителям науки, нам особенно импонирует, что письменность современной Кореи была разработана искусственно корейскими учеными в середине XV века по заказу четвертого царя династии Чосон Сечжона Великого.

Вспоминается знаменитая фраза Белинского про язык: «Создать язык невозможно, ибо его творит народ; филологи только открывают его законы и приводят в систему, а писатели только творят на нем сообразно с сими законами».

Конечно, само существование современного корейского языка доказывает несостоятельность подобной позиции, хотя литературная элита Кореи тех времен с Виссарионом Григорьевичем, скорее, согласилась бы: в XV веке велись нешуточные публичные дебаты с протестами и бойкотами по поводу использования хангыля.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Зачем вообще нужно было создание корейского алфавита новой, так сказать, волны? Дело в том, что корейский язык в то время использовал исключительно китайские иероглифы. До начала XX века в литературе хангыль практически не использовался, так как считался слишком простым. Вместо него распространилась основанная на китайских иероглифах письменность ханча. Царь Седжон объяснял, что он создал новую письменность потому, что корейский язык отличается от китайского, и использованию китайских иероглифов очень трудно научиться. В то время грамоте обучались только мужчины-аристократы («янбаны»), а большинство простых корейцев было безграмотно.

Влиятельный сосед — Китай — оказал воздействие не только на извилистый путь корейского языка, но и на японский. Примерно в VI веке н. э. происходит активное внедрение китайской культуры в японскую из-за развития дипломатических отношений между странами. Вместе с приходом государственного устройства, ремёсел, культуры, искусства и буддизма, в Японии появляется письменность. В этот период в японском языке появились многочисленные китайские слова. Результат этих событий? 60 % словарного запаса современного японского составляют китайские заимствования.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
  • Китайский язык использует в написании иероглифы Ханьцзы (Hànzì) (汉字).
  • Японский — Кандзи (漢字), что буквально означает «Буквы Хань» по названию династии.
  • Корейский — Ханча. (한자)

Японский, китайский и корейский и вправду очень похожи, ведь их связывает не только общее прошлое, но и особенности написания. Во всех трех есть возможность писать тексты как горизонтально, так и вертикально.Так почему же, несмотря на очевидную схожесть, человеку сложно овладеть этими языками, даже если он знал какой-то из них до этого?

В первую очередь, знание китайского все же не гарантирует облегченное изучение японского и корейского, потому что в самом Китае настолько много диалектов, что нередко доходит до полного непонимания между носителями разных вариантов языка. Всего в Китае 13 диалектных групп. В Японии их 7, а в Корее — 6. Однако если в Японии носители разных диалектов могут друг друга понять, то в Корее — не всегда.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Не упрощает изучение и грамматика всех трех языков. В китайском существуют базовые языковые конструкции и регламентированный порядок слов в предложении. Японский и корейский имеют развитую грамматику, включая понятие времени, спряжение, приставки и окончания. Корейцы, в отличие от своих соседей, полностью приняли европейские знаки препинания — от запятых до вопросительных знаков, а также слова и предложения, разделённые пробелами. Как правило, в отличие от китайского и корейского, японцы почти не используют никаких знаков вопросов или восклицательных знаков.

Японский стоит особняком и стилистически. Хотя все три языка используют разные функциональные стили речи, от научного до художественного с разговорным, в японском это выведено на совершенно другой уровень: официальный и разговорный стиль японцев — практически разные языки. Уважительный, кейго, используется в отношении старших и вышестоящих по службе людей и представляет собой усложненный, более формальный вариант.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Искусственный интеллект и азиатские языки

Хотя человек устроен сложнее искусственного интеллекта, с точки зрения распознавания все эти три языка не отличаются по уровню сложности, хотя могли бы. В Smart Engines строят алгоритмы, которые не завязываются на перечисленные сверху лингвистические особенности языков.

Например, корейские символы состоят из ключей, а китайский и японский — это иероглифы. Ключи бьются на составляющие элементы, которые берутся из ограниченного алфавита. Этих ключей немного, поэтому в случае с корейским задачи распознавания упрощаются. В Smart Engines так не делают, а строят алгоритмы, которые сразу распознают результирующий символ целиком. Поэтому для ИИ распознавание всех этих языков идет по одной технологии.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Основной сложностью в процессе обучения ИИ распознаванию этих языков, кроме количества знаков (которых в каждом из них по несколько тысяч, а в китайском счет идет на десятки тысяч), является похожесть этих знаков. Более того, бывает много случаев, когда одни и те же символы в разных шрифтах выглядят по-разному. В Японии, к примеру, есть каллиграфия, то есть искусство изящного письма. Часто даже сами носители не понимают смысла изображенных на свитке иероглифов. Их прямое значение — второстепенно, так как смысл создают те же элементы, что в любом изобразительном искусстве: цвет, линия, энергия мазка. В случае с распознаванием, разные шрифты в японском работают как каллиграфия — могут выглядеть совершенно по-разному.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Примеры на китайском языке
Примеры на китайском языке

Некоторые иероглифы просто невозможно распознать без информации о внешнем окружении. К примеру, в японском есть иероглиф в виде черточки, который означает разное в зависимости от длины этой черточки. В этом случае, безусловно, нужен какой-то дополнительный визуальный контекст. Даже сами японцы говорят, что они отличают такие слова только по контексту — смотрят на строку целиком, так как сами символы по одному неразличимы даже для японцев.

Примеры на японском
Примеры на японском
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Так бывает, что разные иероглифы в одном шрифте машине понять легче, чем одинаковые иероглифы — в разных, что делает распознавание символов серьезной задачей, как например в корейском языке.

Примеры на корейском языке
Примеры на корейском языке
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Несмотря на перечисленные особенности языков, искусственный интеллект справляется с их распознаванием намного лучше человека. И это прекрасно: зачем нам тратить силы на перенесение символов из картинки в текст, когда это может сделать машина. Человек, тем временем, может заняться чем-нибудь по-настоящему интересным — тем же изучением языков.

Кстати, статью о том, как ИИ умеет виртуозно распознавать арабский, можно прочитать по ссылке

Автор: Владимир Арлазаров, к.т.н., генеральный директор Smart Engines