Управление непрерывностью ИТ-услуг: методы, инструменты, подходы

25 февраля 2022, 5 мин читать

Разбираем, какую роль в ИТ-поддержке играет процесс управления непрерывностью услугами, какие методы использовать и как организовать его правильно.

Что такое управление непрерывностью

Управление непрерывностью ИТ-услуг (IT Service Continuity Management, ITSCM) — это процесс, который направлен на поддержку бесперебойного предоставления сервисов. Он преследует следующие цели:

исключение простоев в предоставлении ИТ-услуг;
минимизация ущерба для бизнеса от нежелательных событий;
сокращение сроков недоступности сервиса в экстренных ситуациях.

Риски и нежелательные события рассматриваются в этом процессе как неизбежность. Вопрос в том, чтобы их спрогнозировать и предотвратить, а если не удастся — свести к минимуму негативные последствия для компании. Например, к таким событиям относятся крупные инциденты в ИТ-инфраструктуре (аварии в ЦОД, отключение электроэнергии, DDoS-атаки), стихийные бедствия, техногенные катастрофы. После подобных инцидентов требуются значительные ресурсы, чтобы восстановить ИТ-услуги.

Отсюда и основные метрики непрерывности услуг:

целевое время восстановления — срок, когда услуги будут вновь доступны после сбоя;
целевая точка восстановления — период перед следующим сбоем, до которого необходимо сохранить все данные. От этой метрики зависит выбор частоты и способов резервного копирования данных.

Прерывание сервисов влечет негативные для бизнеса последствия

Какие методы используются для управления непрерывностью

Технически ITSCM представляет собой сочетание реактивных и проактивных мероприятий.

Реактивные методы предназначены для максимально быстрого восстановления сервиса после инцидента. В качестве примера можно привести ремонт вышедшего из строя серверного оборудования.

В отличие от процесса управления инцидентами, ITSCM рассматривает вопрос более системно. Предполагается, что на любой экстренный случай потребуется заранее разработать план действий, просчитать необходимое для его реализации время, а также оценить степень влияния возникшей проблемы на бизнес. Таким образом, управление инцидентами можно рассматривать как часть ITSCM, если речь идет о масштабных происшествиях.

Проактивные методы предотвращают крупные происшествия или сводят к минимуму ущерб от них. Главная задача — сохранить доступность и качество услуг на максимально высоком уровне вне зависимости от внешних обстоятельств. Другими словами, это перестраховка на случай любой угрозы. Сюда можно отнести:

прогнозирование инцидентов и происшествий;
выявление критичных сервисов, которые требуют дополнительных превентивных мер;
выработка общего подхода к восстановлению услуг;
проработка альтернативных вариантов оказания услуг в чрезвычайных ситуациях;
подготовка подменного фонда оборудования;
резервное копирование данных;
подготовка к развертыванию ИТ-систем на резервных мощностях (серверах, дата-центрах) в случае серьезных происшествий.

В частности, в проактивные методы управления непрерывностью входит аналитика произошедших инцидентов при помощи гибких service desk систем. В них можно вести историю пользовательских обращений с фиксацией всех выполненных работ. Анализ такой информации позволяет вскрывать причины инцидентов и планировать профилактические мероприятия заранее, чтобы избежать нежелательных ситуаций в будущем.

Другой пример проактивного подхода — взаимодействие сервис деск решений с интеллектуальными системами мониторинга. Последние фиксируют в режиме реального времени любые отклонения, будь то системные ошибки, выход из строя оборудования, потеря соединения, и направляют уведомления об этом в сервис деск. Автоматически создается запрос на устранение неполадок, который оперативно поступает к нужному специалисту. Зачастую проблему удается устранить еще до того, как непосредственные пользователи успеют заметить сбой.

Еще один вариант проактивных действий — репликация клиентских баз данных на нескольких серверах и в разных дата-центрах. Это позволяет избежать потери информации, которая необходима для предоставления ИТ-услуги, даже при крупной аварии.

Инструменты автоматизации помогают контролировать критичные для бизнеса сервисыи снижать риск негативных последствий

Поскольку проактивное управление непрерывностью услуг действует на опережение, оно неизбежно связано с значительными временными и материальными затратами для бизнеса. Ведь предполагаемые инциденты могут на деле так и не произойти. Впрочем, следует оценивать экономическую целесообразность даже таких превентивных мер.

Как организовать процесс управления непрерывностью: базовые советы

Управление непрерывностью ИТ-услуг не должно осуществляться в отрыве от бизнеса. Прежде всего необходимо разработать стратегию управления непрерывностью бизнеса в целом. В рамках такой стратегии выявляются жизненно важные бизнес-процессы и основные риски для компании, прорабатываются механизмы взаимодействия различных подразделений. ИТ-специалисты должны иметь четкое представление, какие услуги наиболее критичны и подлежат восстановлению в первую очередь.

Каждый специалист должен быть ознакомлен с порядком действий на случай серьезных сбоев в предоставлении услуг. При нынешней значимости технологий для бизнеса задокументированный план обеспечения непрерывности ИТ-услуг становится почти таким же обязательным атрибутом, как, скажем, инструкции по пожарной безопасности. Наличие такого документа позволит избежать несогласованности действий в непредвиденных обстоятельствах.

Коротко: что нужно знать об управлении непрерывностью ИТ-услуг

Четко выстроенный процесс управления непрерывностью ИТ-услуг дает массу преимуществ организации. В любых ситуациях жизненно важные для бизнеса сервисы будут восстанавливаться в кратчайшие сроки.

ITSCM включает реактивные и проактивные методы управления процессом. Первые направлены на нейтрализацию последствий уже произошедшего нежелательного события. Вторые — это упреждающие действия, которые должны не допустить прерывания ИТ-услуг. И в тех, и в других мероприятиях широко применяются системы класса service desk. Подобные инструменты помогают фиксировать инциденты, проводить их аналитику и выполнять другие задачи по автоматизации работы ИТ-службы.

В организационном плане ITSCM следует рассматривать как часть стратегии по обеспечению непрерывности всего бизнеса. Для этого потребуется разработать регламентированный план действий по оперативному возобновлению услуг и ознакомить с ним всех технических специалистов компании.

Протестировать ITSM 365