Повышение устойчивости границ в деревьях решений и случайных лесах: подход с использованием взвешенного дублирования выборки

Интеллектуальные системы и технологии, искусственный интеллект
Авторы:
Аннотация:

Деревья решений и их ансамблевые расширения, такие как случайные леса, широко используются в качестве моделей классификации благодаря своей простоте и интерпретируемости. Однако во многих реальных задачах, где метки классов перекрываются в пространстве признаков, стандартные деревья решений полагаются на жесткие разбиения, которые создают слабые границы принятия решений. В этих областях небольшие возмущения входных значений могут привести к неправильной классификации, снижая надежность модели. Для решения этой проблемы мы предлагаем механизм локализованного дублирования данных, который модифицирует стандартный алгоритм CART (Classification and Regression Tree) путем дублирования образцов, расположенных вблизи выбранного порога разбиения, в оба дочерних узла. Чтобы предотвратить перегрузку узлов этими дублированными образцами, им присваивается уменьшенный вес на основе плавно убывающей функции относительно их расстояния от порога. Такой подход позволяет обоим дочерним узлам обучаться на неоднозначных областях, сохраняя информацию о неопределенности, одновременно поддерживая выровненную по осям детерминированную структуру классических деревьев решений. При применении в рамках случайного леса процесс дублирования также увеличивает разнообразие ансамбля. Экспериментальная оценка на 11 реальных наборах данных с различной степенью перекрытия классов показывает, что предложенная модификация последовательно улучшает показатели ROC-AUC и устойчивость границ, сохраняя при этом низкие вычислительные затраты.