DarkBERT будет искать криминал в «темной паутине»

Исследователи из Национального исследовательского университета в Южной Корее разработали большую языковую модель DarkBERT, специально предназначенную для поиска и анализа данных в Dark Web. Это закрытая, анонимная область Интернета, где сосредоточены многие криминальные сервисы, в том числе системы взлома данных. Ученые считают, что DarkBERT поможет правоохранителям сориентироваться в «темной паутине».
DarkBERT будет искать криминал в «темной паутине»
Public Domain

Dark Web — это закрытый для поисковиков сегмент интернета. Чужие там не ходят. А свои говорят на специфической «фене». Языковая модель на основе ИИ DarkBERT научилась этот язык понимать.

Dark Web — это активная торговая площадка, где преступники предлагают длинный список криминальных цифровых сервисов. Здесь продают пароли к банковским счетам, номера социального страхования. Здесь предоставляют сервисы для кражи личных данных, вредоносные программы и пакеты кибератак, которые могут разрушить компанию, город или страну.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«В ядовитом подбрюшье Dark Web постоянно разрастается темный хаос», — сказал Джеймс Скотт, старший научный сотрудник Института критически важных инфраструктурных технологий.

Исследователи из Национального исследовательского университета в Южной Корее пытаются пролить немного больше света на эту ядовитую изнанку Интернета. Их отчет «DarkBERT: языковая модель темной стороны Интернета» появился на этой неделе.

Обратная сторона Интернета

Хотя Dark Web составляет всего 5% Интернета, ежедневно он привлекает около 3 миллионов пользователей. Cybersecurity Ventures прогнозирует, что к 2025 году доходы от глобальных киберпреступлений превысят 10 триллионов долларов.

Чтобы помочь в борьбе с этой угрозой, корейские исследователи обучили большую языковую модель на документах, полученных из Dark Web. Они говорят, что такие усилия необходимы для навигации в «темной паутине» и помощи тем, кто стремится пресечь преступную деятельность.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Исследователь Ёнджин Джин говорит, что DarkBERT будет «бороться с крайним лексическим и структурным разнообразием Dark Web, которое мешает пониманию предметной области».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Джин говорит, что ранние проекты BERT и RoBERTa, обученные на контенте Surface Web (обычный Интернет), «не подходят для извлечения полезной информации из-за различий в языке, используемом в этих сильно различающихся доменах».

Исследователи отметили три ключевые области, в которых DarkBERT оказался эффективным: обнаружение программ-вымогателей, обнаружение заслуживающих внимания вредоносных тредов и «набор ключевых слов, которые семантически связаны с угрозами и продажей наркотиков в Dark Web».

Джин отметил, что ручная проверка огромного количества сообщений Dark Web требует «огромных человеческих ресурсов». Автоматизация такого анализа «значительно снизит нагрузку на экспертов по безопасности», особенно с языковой моделью, обученной уникальному словарю Dark Web.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Правоохранительные органы добились определенного прогресса в пресечении незаконной деятельности в Dark Web. Площадка Silk Road, которая заработала более миллиарда долларов на незаконной продаже наркотиков, была закрыта ФБР, а ее создатель приговорен к пожизненному заключению. Платформа AlphaBay, которая продавала наркотики на сотни миллионов долларов и занималась взломом данных, была закрыта международными усилиями правоохранительных органов.

Но эти усилия — только капля в море. Чтобы добиться большего, правоохранительные органы должны лучше изучить язык киберпреступников.

DarkBERT кажется шагом в правильном направлении.