Управление непрерывностью ИТ-услуг: методы, инструменты, подходы
5 мин читать
Разбираем, какую роль в ИТ-поддержке играет процесс управления непрерывностью услугами, какие методы использовать и как организовать его правильно.
Что такое управление непрерывностью
Управление непрерывностью ИТ-услуг (IT Service Continuity Management, ITSCM) — это процесс, который направлен на поддержку бесперебойного предоставления сервисов. Он преследует следующие цели:
- исключение простоев в предоставлении ИТ-услуг;
- минимизация ущерба для бизнеса от нежелательных событий;
- сокращение сроков недоступности сервиса в экстренных ситуациях.
Риски и нежелательные события рассматриваются в этом процессе как неизбежность. Вопрос в том, чтобы их спрогнозировать и предотвратить, а если не удастся — свести к минимуму негативные последствия для компании. Например, к таким событиям относятся крупные инциденты в ИТ-инфраструктуре (аварии в ЦОД, отключение электроэнергии, DDoS-атаки), стихийные бедствия, техногенные катастрофы. После подобных инцидентов требуются значительные ресурсы, чтобы восстановить ИТ-услуги.
Отсюда и основные метрики непрерывности услуг:
- целевое время восстановления — срок, когда услуги будут вновь доступны после сбоя;
- целевая точка восстановления — период перед следующим сбоем, до которого необходимо сохранить все данные. От этой метрики зависит выбор частоты и способов резервного копирования данных.
Какие методы используются для управления непрерывностью
Технически ITSCM представляет собой сочетание реактивных и проактивных мероприятий.
Реактивные методы предназначены для максимально быстрого восстановления сервиса после инцидента. В качестве примера можно привести ремонт вышедшего из строя серверного оборудования.
В отличие от процесса управления инцидентами, ITSCM рассматривает вопрос более системно. Предполагается, что на любой экстренный случай потребуется заранее разработать план действий, просчитать необходимое для его реализации время, а также оценить степень влияния возникшей проблемы на бизнес. Таким образом, управление инцидентами можно рассматривать как часть ITSCM, если речь идет о масштабных происшествиях.
Проактивные методы предотвращают крупные происшествия или сводят к минимуму ущерб от них. Главная задача — сохранить доступность и качество услуг на максимально высоком уровне вне зависимости от внешних обстоятельств. Другими словами, это перестраховка на случай любой угрозы. Сюда можно отнести:
- прогнозирование инцидентов и происшествий;
- выявление критичных сервисов, которые требуют дополнительных превентивных мер;
- выработка общего подхода к восстановлению услуг;
- проработка альтернативных вариантов оказания услуг в чрезвычайных ситуациях;
- подготовка подменного фонда оборудования;
- резервное копирование данных;
- подготовка к развертыванию ИТ-систем на резервных мощностях (серверах, дата-центрах) в случае серьезных происшествий.
В частности, в проактивные методы управления непрерывностью входит аналитика произошедших инцидентов при помощи гибких service desk систем. В них можно вести историю пользовательских обращений с фиксацией всех выполненных работ. Анализ такой информации позволяет вскрывать причины инцидентов и планировать профилактические мероприятия заранее, чтобы избежать нежелательных ситуаций в будущем.
Другой пример проактивного подхода — взаимодействие сервис деск решений с интеллектуальными системами мониторинга. Последние фиксируют в режиме реального времени любые отклонения, будь то системные ошибки, выход из строя оборудования, потеря соединения, и направляют уведомления об этом в сервис деск. Автоматически создается запрос на устранение неполадок, который оперативно поступает к нужному специалисту. Зачастую проблему удается устранить еще до того, как непосредственные пользователи успеют заметить сбой.
Еще один вариант проактивных действий — репликация клиентских баз данных на нескольких серверах и в разных дата-центрах. Это позволяет избежать потери информации, которая необходима для предоставления ИТ-услуги, даже при крупной аварии.
Поскольку проактивное управление непрерывностью услуг действует на опережение, оно неизбежно связано с значительными временными и материальными затратами для бизнеса. Ведь предполагаемые инциденты могут на деле так и не произойти. Впрочем, следует оценивать экономическую целесообразность даже таких превентивных мер.
Как организовать процесс управления непрерывностью: базовые советы
Управление непрерывностью ИТ-услуг не должно осуществляться в отрыве от бизнеса. Прежде всего необходимо разработать стратегию управления непрерывностью бизнеса в целом. В рамках такой стратегии выявляются жизненно важные бизнес-процессы и основные риски для компании, прорабатываются механизмы взаимодействия различных подразделений. ИТ-специалисты должны иметь четкое представление, какие услуги наиболее критичны и подлежат восстановлению в первую очередь.
Каждый специалист должен быть ознакомлен с порядком действий на случай серьезных сбоев в предоставлении услуг. При нынешней значимости технологий для бизнеса задокументированный план обеспечения непрерывности ИТ-услуг становится почти таким же обязательным атрибутом, как, скажем, инструкции по пожарной безопасности. Наличие такого документа позволит избежать несогласованности действий в непредвиденных обстоятельствах.
Коротко: что нужно знать об управлении непрерывностью ИТ-услуг
Четко выстроенный процесс управления непрерывностью ИТ-услуг дает массу преимуществ организации. В любых ситуациях жизненно важные для бизнеса сервисы будут восстанавливаться в кратчайшие сроки.
ITSCM включает реактивные и проактивные методы управления процессом. Первые направлены на нейтрализацию последствий уже произошедшего нежелательного события. Вторые — это упреждающие действия, которые должны не допустить прерывания ИТ-услуг. И в тех, и в других мероприятиях широко применяются системы класса service desk. Подобные инструменты помогают фиксировать инциденты, проводить их аналитику и выполнять другие задачи по автоматизации работы ИТ-службы.
В организационном плане ITSCM следует рассматривать как часть стратегии по обеспечению непрерывности всего бизнеса. Для этого потребуется разработать регламентированный план действий по оперативному возобновлению услуг и ознакомить с ним всех технических специалистов компании.