16.06.2024, 07:13

ИИ обучили языку глухонемых. Он может работать сурдопереводчиком

Две группы ученых разработали ИИ-модели, работающие с жестовыми языками. Одна переводит с языка жестов на звучащие языки, другая — работает в обратную сторону, она перевод текст на язык жестов. В этом случае жесты воспроизводит аватар.

Владимир Губайловский

Теги:

Искусственный интеллект

Нейросети

Нейронауки

ИИ обучили языку глухонемых. Он может работать сурдопереводчиком

Разговор. Unsplash

По данным ООН в мире жестовыми языки постоянно пользуются более 70 миллионов слабослышащих. Разных жестовых языков на сегодня описано более 300.

Жестовыми языками пользуются не только слабослышащие между собой, но и люди с нормальным слухом, которые с ними общаются. Выучить жестовый язык во взрослом возрасте довольно сложно, но в некоторых случаях необходимо. Например, если у нормально слышащих родителей растет глухой ребенок.

Проблема автоматического перевода с жестового языка на звуковой, гораздо труднее, чем, например, с английского на русский, при котором текст преобразуется в текст При работе с жестовым языком нужно распознать жесты (видео) и превратить жесты в текст (или голос), а в обратном направлении — нужно превратить текст в жесты (видео).

Преобразование языка жестов в текст

Разговор на языке жестов

Unsplash

Но ИИ помогает решить эту проблему. Работа ученых Университета Суррея, размещена на сайте препринтов arxiv. В статье описана ИИ-модель Sign2GPT, которая превращает сообщение на жестовом языке в текст. Модель обучалась на видеозаписях жестовых языков.

Трудность анализа изображения в этом случае состоит еще и в том, что жестовый язык принципиально трехмерный (рука — главный инструмент языка — двигается не только вверх-вниз, но и вперед-назад, а видеоизображение двумерно).

Анализа отдельных кадров недостаточно, поскольку значение слов и фраз зависит от последовательности жестов, а в некоторых случаях даже от темпа. Тем не менее, разработанная модель уверенно переводит жестовый язык в текст.

Преобразование текста в язык жестов

Задача, которую решала команда ученых из нескольких американских университетов была еще сложнее. Работа также размещена на сайте препринтов arxiv. В статье описана ИИ-модель SignLLM. Она тоже обучалась на видеозаписях жестового языка, но ее цель была другой: превратить текст в видео. Модель получает на входе текст, и моделирует изображение аватара, которые выполняет сурдоперевод.

SignLLM. Видео с аватарами, которые воспроизводят сообщения на 8 жестовых языках

Следующий шаг, который планируют сделать обе команды — объединить возможности обеих моделей в одну, и добавить распознавание и синтез голоса. Тогда общение слабослышащих людей приблизится к обычному общению людей с нормальным слухом. Ученые считают такое развитие моделей не только возможным, но достижимым в недалеком будущем.