Алгоритм мониторинга и повышения стабильности информационно-технологической инфраструктуры на основе метрик доступности и надежности

Программное обеспечение вычислительных, телекоммуникационных и управляющих систем
Авторы:
Аннотация:

Большинство компаний имеют собственную информационно-технологическую инфраструктуру, состоящую из сложных систем и сервисов. Стабильность работы сервисов важна для компаний, так как проблемы с ними приводят к потерям ресурсов и человеческого времени. Поэтому важным является анализ предыдущих отключений сервисов, который направлен на выявление и налаживание уязвимых элементов инфраструктуры, подверженных поломке или отказу. Цель исследования: разработать алгоритм для повышения стабильности информационно-технологической инфраструктуры предприятия за счет анализа и учета статистики предыдущих отключений. Результаты: предложен новый алгоритм, позволяющий выявлять и устранять проблемы в информационно-технологических сервисах предприятия до того, как они приведут к серьезным последствиям, и сокращать время на поиск источника проблемы. Алгоритм основан на двух новых метриках: доступность и надежность, – отличительной особенностью которых является учет статистики предыдущих отключений. Представлена архитектура высокопроизводительного программного средства, позволяющего в режиме реального времени осуществлять мониторинг и оценку показателей стабильности сервисов. Демонстрируется эффективность предложенного алгоритма путем его реализации в программном средстве и наблюдения роста показателей стабильности – доступности и надежности – после обнаружения и устранения слабого звена в информационно-технологических сервисах. Использование разработанного алгоритма позволило на 25% сократить время, в течение которого материальные и человеческие ресурсы компании простаивали. Практическая значимость: представленный алгоритм применен на практике в одной из крупных промышленных информационно-технологических компаний с более чем 10000 сотрудников. На основе информации, полученной при помощи созданного программного средства, удалось получить рекомендации по повышению стабильности информационных сервисов компании.