Метод классификации риск-инцидентов на основе самоорганизации семантических кластеров

Системный анализ и управление
Авторы:
Аннотация:

Представлен метод автоматической классификации текстовых описаний аварийных риск-инцидентов на основе самоорганизующейся семантической кластеризации, не требующий априорной разметки данных. В отличие от традиционных подходов, метод предполагает двухэтапную схему, которая заключается в самоорганизации латентной таксономии инцидентов посредством иерархического тематического разложения текстового корпуса, а также непрерывной классификации новых сообщений по степени принадлежности ко всем автоматически выделенным классам сразу. Такой переход от жесткого присваивания одного класса к нечеткой принадлежности позволяет декомпозировать гибридные инциденты на несколько факторов риска, отражая их смешанную природу. Разработанный алгоритм формирует интерпретируемую и устойчивую таксономию инцидентов, сохраняющую структурную обособленность кластеров даже при высокой доле гибридных событий. В рамках апробации на корпусе данных NRC показано, что большинство сообщений имеют доминирующий фактор риска при наличии значимых вторичных компонентов. Средняя семантическая согласованность кластеров составила ~0.62 (косинусная мера), а уверенность классификации распределена вокруг среднего значения, отражая наличие как чистых, так и смешанных инцидентов. Результаты подтверждают, что предложенный метод обеспечивает математически корректную декомпозицию сложных ситуаций на совокупность факторов риска и снижает чувствительность классификации к шуму и неточностям входного текста. Методология ориентирована на проактивный анализ риска в сложных технических системах и может применяться для автоматизированной поддержки принятия решений в рамках систем промышленной безопасности.