Исследование позволило лучше покрыть истинное распределение данных и сгенерировать синтетические примеры миноритарного класса (с малым числом доступных образцов) ближе к границе решения, сместив ее в сторону мажоритарного класса. Такая проблема актуальна для несбалансированных обучающих выборок, где высококачественная классификация AI-моделью затруднена из-за доминирования примеров одного класса над другим.
Наука шагает вперед: разработан новый геометрический метод расширения данных

Традиционные методы — случайное дублирование или глобальное семплирование — часто дают низкокачественную выборку или плохо моделируют данные редких классов. Предложенная техника решает эти проблемы: обеспечивает более точное моделирование сложных топологических структур данных и увеличивает качество классификаторов на несбалансированных наборах данных.

На большом количестве тестовых датасетов исследователи экспериментально показали, что предложенный подход значимо повышает метрики качества (F1-мера, коэффициент корреляции Matthew) как базового SMOTE, так и его модификаций. Польза отмечена не только для обычно рассматриваемых в статьях по несбалансированному обучению методов ближайшего соседа (K-NearestNeighbors, KNN), но и для чаще используемых на практике, более точных классификаторов, таких как градиентный бустинг.
Результаты исследования могут быть применимы в финансах, медицине, маркетинге и промышленности — везде, где распространены несбалансированные данные. Банки могут использовать Simplicial SMOTE, чтобы лучше выявлять мошенничество, а медицинские центры — чтобы диагностировать редкие заболевания.
Разработанный подход может способствовать развитию более точных и надежных моделей машинного обучения и, следовательно, более высокому качеству аналитики.