В России представлена новая ИИ-модель для борьбы с телефонными мошенниками

Специалисты МТУСИ и Института AIRI разработали эффективную модель для определения сгенерированных голосов AASIST3. Представленная архитектура вошла в десятку лучших решений международного соревнования ASVspoof 2024 Challenge.
В России представлена новая ИИ-модель для борьбы с телефонными мошенниками
Freepik
В будущем модель сможет использоваться для противодействия голосовому мошенничеству в системах голосовой аутентификации.

Системы голосовой биометрии — ASVС - широко используются для аутентификации пользователей при проведении финансовых транзакций в смарт-устройствах, а также в целях защиты пользователей от телефонного мошенничества. Особенность подобных систем в том, что они довольно точно способны распознавать человека по его голосу. Однако те модели, которые применяются сегодня, все еще имеют недостатки. Например, они могут быть уязвимы к так называемым «состязательным атакам»: когда небольшое изменение входного аудио приводит к значительным погрешностям в работе модели. Так, злоумышленники научились обходить системы безопасности, генерируя синтетический голос с помощью преобразования текста в речь (text-to-speech, TTS) и преобразования голоса (voice conversion, VC).

Чтобы противостоять продуманным атакам, ученые работают над более совершенными системами защиты от подмены голоса.

AASIST 2.0: решение для выявления синтезированных голосов

Впервые ИИ-модель AASIST для анализа аудио ряда была разработана коллективом ученых из Южной Кореи и Франции и представлена в 2021 году. Исследования подтвердили ее эффективность, однако скорое развитие генеративного ИИ привело к тому, что модели перестало хватать функционала. Использовав AASIST в качестве базы, команда НИО «Интеллектуальные решения» МТУСИ и команда «Доверенные и безопасные интеллектуальные системы» AIRI при участии аспиранта Сколтеха сформировала новую архитектуру для выявления поддельных синтезированных голосов.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В результате работы ученым удалось дообучить модель и улучшить ее производительность более чем в два раза, по сравнению с оригинальным решением. Достичь успеха команде помогло использование сети Колмогорова-Арнольда (KAN), дополнительных слоев и предварительного обучения, а также лучшего feature extractor.

«Важно использовать современные методы нейросетей для противодействия голосовому спуфингу, потому что злоумышленники постоянно совершенствуют свои инструменты. Технологии TTS и VC позволяют создавать синтетические голоса, которые уже сейчас очень трудно отличить от настоящих. Преимущество KAN-сетей заключается в их способности учитывать контекст и знания о голосовых данных, позволяя более эффективно различать подлинный голос и его подделку. Такие сети не только распознают подделки с высокой точностью, но и способны адаптироваться к новым типам угроз», - отмечает Олег Рогов, руководитель научной группы «Доверенные и безопасные интеллектуальные системы» AIRI.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Применять готовую AASIST3 можно будет в различных сферах, в том числе в финансовом секторе и телекоммуникациях. Однако ученые главной целью собственной разработки видят противодействие голосовому мошенничеству и повышение безопасности систем голосовой аутентификации.

«Интеграция модели в бизнес может осуществляться различными способами - от внедрения отдельного программного решения до встраивания в существующие системы безопасности через API. Потребность в подобных технологиях высока, учитывая растущую угрозу атак с использованием синтетических голосов», — говорит Грач Мкртчан, Руководитель НИО «Интеллектуальные решения» МТУСИ.

Работа была представлена в рамках научной конференции Interspeech 2024 в Греции.