Наука шагает вперед: разработан новый геометрический метод расширения данных

Специалисты Лаборатории искусственного интеллекта Сбербанка и Высшей школы экономики разработали геометрический метод оверсемплинга (расширения данных) Simplicial SMOTE (Synthetic Minority Oversampling Technique). Ученые обобщили традиционный алгоритм SMOTE, применив для семплирования новых синтетических данных вместо двух близких точек симплициальные комплексы, порожденные несколькими обучающими примерами.
Редакция сайта
Редакция сайта
Наука шагает вперед: разработан новый геометрический метод расширения данных
Freepik

Исследование позволило лучше покрыть истинное распределение данных и сгенерировать синтетические примеры миноритарного класса (с малым числом доступных образцов) ближе к границе решения, сместив ее в сторону мажоритарного класса. Такая проблема актуальна для несбалансированных обучающих выборок, где высококачественная классификация AI-моделью затруднена из-за доминирования примеров одного класса над другим.

Метод Simplicial SMOTE особенно важен в задачах, где редкий класс (допустим, случаи мошенничества или заболевания) более значим.

Традиционные методы — случайное дублирование или глобальное семплирование — часто дают низкокачественную выборку или плохо моделируют данные редких классов. Предложенная техника решает эти проблемы: обеспечивает более точное моделирование сложных топологических структур данных и увеличивает качество классификаторов на несбалансированных наборах данных.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
программирование, компьютер, человек печатает
Freepik
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

На большом количестве тестовых датасетов исследователи экспериментально показали, что предложенный подход значимо повышает метрики качества (F1-мера, коэффициент корреляции Matthew) как базового SMOTE, так и его модификаций. Польза отмечена не только для обычно рассматриваемых в статьях по несбалансированному обучению методов ближайшего соседа (K-NearestNeighbors, KNN), но и для чаще используемых на практике, более точных классификаторов, таких как градиентный бустинг.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Результаты исследования могут быть применимы в финансах, медицине, маркетинге и промышленности — везде, где распространены несбалансированные данные. Банки могут использовать Simplicial SMOTE, чтобы лучше выявлять мошенничество, а медицинские центры — чтобы диагностировать редкие заболевания.

Новый метод можно интегрировать в существующие алгоритмы оверсемплинга (Borderline SMOTE, Safe-level SMOTE и ADASYN), повысив их точность без существенного роста вычислительной сложности.

Разработанный подход может способствовать развитию более точных и надежных моделей машинного обучения и, следовательно, более высокому качеству аналитики.