ИИ обучили языку глухонемых. Он может работать сурдопереводчиком
Жестовыми языками пользуются не только слабослышащие между собой, но и люди с нормальным слухом, которые с ними общаются. Выучить жестовый язык во взрослом возрасте довольно сложно, но в некоторых случаях необходимо. Например, если у нормально слышащих родителей растет глухой ребенок.
Проблема автоматического перевода с жестового языка на звуковой, гораздо труднее, чем, например, с английского на русский, при котором текст преобразуется в текст При работе с жестовым языком нужно распознать жесты (видео) и превратить жесты в текст (или голос), а в обратном направлении — нужно превратить текст в жесты (видео).
Преобразование языка жестов в текст
Но ИИ помогает решить эту проблему. Работа ученых Университета Суррея, размещена на сайте препринтов arxiv. В статье описана ИИ-модель Sign2GPT, которая превращает сообщение на жестовом языке в текст. Модель обучалась на видеозаписях жестовых языков.
Трудность анализа изображения в этом случае состоит еще и в том, что жестовый язык принципиально трехмерный (рука — главный инструмент языка — двигается не только вверх-вниз, но и вперед-назад, а видеоизображение двумерно).
Анализа отдельных кадров недостаточно, поскольку значение слов и фраз зависит от последовательности жестов, а в некоторых случаях даже от темпа. Тем не менее, разработанная модель уверенно переводит жестовый язык в текст.
Преобразование текста в язык жестов
Задача, которую решала команда ученых из нескольких американских университетов была еще сложнее. Работа также размещена на сайте препринтов arxiv. В статье описана ИИ-модель SignLLM. Она тоже обучалась на видеозаписях жестового языка, но ее цель была другой: превратить текст в видео. Модель получает на входе текст, и моделирует изображение аватара, которые выполняет сурдоперевод.
SignLLM. Видео с аватарами, которые воспроизводят сообщения на 8 жестовых языках
Следующий шаг, который планируют сделать обе команды — объединить возможности обеих моделей в одну, и добавить распознавание и синтез голоса. Тогда общение слабослышащих людей приблизится к обычному общению людей с нормальным слухом. Ученые считают такое развитие моделей не только возможным, но достижимым в недалеком будущем.
.