Управление инцидентами ITIL: понятие и подходы к процессу руководства
9 мин читать
По данным западных аналитиков, минута простоя ИТ-службы обходится сервисному бизнесу более чем в 5,5 тысячи долларов. Поэтому управление инцидентами называют одним из важнейших процессов, который обеспечивает быстрое восстановление стабильной работы службы поддержки и снижает влияние происшествий на бизнес-операции. В статье разберем, что называют инцидентами и как ими управлять.
Что такое инцидент
Управление инцидентами — один из ключевых процессов, который описан в библиотеке инфраструктуры информационных технологий (ITIL). Этот набор рекомендаций включает в себя лучшие практики для управления ИТ-услугами. Его основная цель — помочь согласовать ИТ-услуги организации с устоявшимися потребностями бизнеса.
ITIL предоставляет подробные описания жизненно важных ИТ-практик: процедуры, задачи, процессы, контрольные списки. Эти практики достаточно универсальны для поддержания стратегического роста компании, и при этом их можно адаптировать под специфику конкретного бизнеса.
Согласно ITIL, инцидент — это любое незапланированное прерывание работы или снижение качества услуги, которые предоставляется по линии ИТ. При этом инцидент может иметь различный характер: от внезапного сброса пароля до незапланированной остановки сервера.
Цель управления инцидентами — как можно быстрее восстановить нормальную работу служб в рамках SLA, обеспечить наилучший уровень качества и доступности услуг.
Поскольку инцидентов может произойти несколько, решать их все одновременно нецелесообразно и слишком затратно для бизнеса. Поэтому обычно инциденты ранжируют по приоритетности на основе срочности и степени воздействия на процессы. Чем выше приоритет, тем более критично инцидент может повлиять на функционирование предприятия.
Приведем несколько примеров самых распространенных инцидентов в сервисных службах:
Инцидент
Возможные причины
Последствия
Сбой в сети
Поломка оборудования, ошибка ПО, кибератака
Потеря подключения или доступа к критически важным системам
Сбой приложения
Ошибки кодирования, проблемы с конфигурацией
Сбой в работе ИТ-услуг, отсутствие доступа к приложению для конечных пользователей
Ухудшение сервиса
Недостаток ресурсов, плохое сетевое подключение, сбой оборудования
Снижение качества ИТ-услуг
Нарушение безопасности
Заражение вредоносным ПО, несанкционированный доступ
Утечка персональных данных, блокировка работы ИТ-службы
Аппаратный сбой
Износ, скачки напряжения, факторы окружающей среды
Простой в работе сервисной службы, снижение производительности
Потеря связи
Перегрузка сети, сбой оборудования, кибератака
Нарушение коммуникаций с конечными пользователями, невозможность своевременно среагировать на запрос
Различие между инцидентами и проблемами
Инцидент и проблема — не аналогичные названия одной сущности. В рамках ITIL, это два, пусть и родственных, но разных по целям и задачам процесса.
Управление инцидентами — это реактивный процесс. Его основное назначение — свести к минимуму влияние инцидентов на организацию. При этом управление инцидентами не включает выявление причин и их анализ.
Управление проблемами — это одновременно реактивный и упреждающий процесс. Его цель — выявить и устранить причины проблем. Кроме того, в рамках этого процесса находят постоянные решения, которые полностью исключают или снижают вероятность повторения проблемы.
Чтобы лучше понять разницу между управлением инцидентами и управлением проблемами, приведем пару примеров.
Допустим, клиент сообщает, что не может получить доступ к приложению. Команда управления инцидентами действует так:
- регистрирует на обращение;
- классифицирует его в зависимости от его приоритета и воздействия;
- исследует и диагностирует инцидент;
- как можно быстрее работает над тем, чтобы восстановить работу сервиса.
В случае с управлением проблемой процедура имеет несколько иной вид. Если с одним и тем же приложением происходят повторяющиеся инциденты, ими занимается команда управления проблемами:
- анализирует инциденты;
- выявляет их причины, находит закономерности между ними;
- ищет постоянное решение, которое устранит проблему сейчас и будет действовать на опережение — например, внесет изменения в приложение так, чтобы предотвратить возникновение проблемы в будущем.
Для наглядности ключевые различия между управлением инцидентами и управлением проблемами по ITIL — в таблице:
Характеристика
Управление инцидентами
Управление проблемами
Фокус работы
Реагирование на происшествие
Реагирование на проблему и поиск постоянного решения
Цель
Быстро и эффективно восстановить нормальное обслуживание и операции
Не допустить возникновения проблемы в будущем
Объем работы
Точечное управление текущим инцидентом и его влиянием на бизнес
Более широкое воздействие, направленное на устранение коренных причин проблем
Триггер
Момент фактического возникновения инцидента
Закономерности и тенденции, выявленные в прошлом
Временные рамки
Краткосрочный характер
Долгосрочный характер
Процесс
Следует заранее определенному процессу для максимально быстрого восстановления услуг
Следует установленному процессу выявления, анализа и устранения основных причин проблем
Желаемый результат
Устранить инцидент и восстановить обслуживание
Не допустить повторения проблем
Как осуществить процесс управления инцидентами
Любой процесс управления инцидентами включает в себя набор определенных шагов, которые помогают быстро и эффективно восстановить работу сервиса:
Шаг 1: Идентификация
Сотрудники или клиенты могут сообщать об инцидентах по разным каналам: через личные сообщения, самообслуживание, по телефону, электронной почте, в SMS или в чате. Команда службы поддержки получает отчет и решает, является ли проблема инцидентом или типовым запросом.
Запрос на обслуживание — это запрос пользователя на предоставление какой-либо услуги. Например, создать новую учетную запись, изменить пароль, обновить оборудование или ПО. Обычно типовые запросы менее срочные, чем инциденты, и обрабатываются с помощью заранее определенных процессов.
Шаг 2. Регистрация
После выявления инцидента он регистрируется в службе поддержки. Журнал инцидентов должен включать следующую информацию:
- Имя и контактные данные лица, сообщившего о происшествии.
- Дата и время.
- Описание инцидента.
- Уникальный идентификационный номер для отслеживания.
Чем более подробной будет запись, тем быстрее и качественнее команда поддержки сможет устранить инцидент. Кроме того, команда управления проблемами сможет глубже проанализировать причину происшествия и разработает более детальные решения и рекомендации.
Шаг 3: Классификация
На этом этапе инциденту присваивают логическую категорию и статус. При правильном подходе категоризация может в дальнейшем:
- упростить регистрацию инцидентов;
- уменьшить избыточность действий;
- ускорить разрешение;
- быстро определять, легко ли разрешим инцидент или требуется эскалация.
Иногда категоризация может даже позволить автоматически расставлять приоритеты инцидентов. Например, инцидент в категории «отказ системы» автоматически будет иметь высокий приоритет.
Шаг 4: Приоритизация
На этом этапе ИТ-служба определяет, насколько сильно инцидент влияет на работу компании и как быстро его необходимо устранить. Как правило, здесь учитывают:
- финансовое влияние инцидента на бизнес;
- количество пользователей, которые будут затронуты в процессе инцидента;
- последствия для соответствия требованиям SLA.
Приоритеты обычно следующие:
- Низкий — инциденты вызывают лишь незначительные перебои в работе бизнеса. Устранение не затронет качество обслуживания.
- Средний — могут вызвать умеренные перерывы в работе компании при некритичных финансовых и юридических последствиях для бизнеса.
- Высокий — затрагивают большое количество пользователей, вызывают серьезные сбои в работе бизнеса, могут привести к значительному снижению удовлетворенности клиентов и серьезным финансовым последствиям.
Приоритетность в разрешении инцидентов гарантирует, что ИТ-команда сосредоточится на самом важном, а не будет тратить время на проблемы низкого уровня, в то время как серьезные происшествия наносят ущерб клиентам или сотрудникам. Как правило, подробное описание приоритетов фиксируют и согласовывают в SLA.
Шаг 5: Реагирование
Этот шаг включает в себя пять этапов:
- Первоначальная диагностика
Сотрудник службы поддержки пытается быстро диагностировать проблему на поверхностном уровне. Клиенту или сотруднику, который сообщил об инциденте, задают уточняющие вопросы, чтобы получить общее представление о проблеме. На основании этого специалист выдвигают гипотезу о причине, чтобы исправить ее самостоятельно, либо передать ее соответствующей команде. - Эскалация
Этот этап — опциональный. Он вступает в силу, если инцидент требует подключения квалифицированных специалистов службы поддержки. В зависимости от ситуации инцидент будет передан либо непосредственно технической команде, либо высшему руководству. - Исследование
Сотрудники службы поддержки пытаются подтвердить правильность первоначальной гипотезы. Затем изучают более глубокие причины и возможные решения инцидента — например, исправление ПО или замена оборудования. Кроме того, на этом этапе сервисная служба уведомляет конечных пользователей об инциденте, его причинах и сроках устранения неполадок. - Разрешение инцидента и восстановление рабочего процесса
Техническая команда устраняет проблему и восстанавливает работу систем. При необходимости, оборудование или ПО тестируют на предмет возможных ошибок. Затем пользователям сообщают, что инцидент устранен. А весь процесс разрешения заносят в специальный отчет. - Закрытие инцидента
Заявку передают обратно в службу поддержки. На этом этапе сервисная команда делает запрос к клиенту или сотруднику, от которого поступило обращение, удовлетворен ли он разрешением инцидента. Далее инцидент закрывают и проводят оценку принятых мер.
Многоуровневый подход к управлению инцидентами
Сущность инцидентов и процессы по их устранению зависят от специфики бизнеса. Чтобы гибко адаптировать процедуру поддержки и устранения сбоев, в сервисных службах часто применяют универсальную ролевую модель с зонами ответственности:
- Техническая поддержка по уровням
В компаниях с развитыми бизнес-процессами ИТ-поддержку структурно разделяют на несколько уровней или линий. Сотрудники первой линии принимают от клиентов заявки об инцидентах, регистрируют их, классифицируют и предпринимают немедленные меры для восстановления обслуживания. Если инцидент не удается устранить в течение заданного периода времени, его передают на следующий уровень для более глубокой и специализированной работы. - Менеджер по инцидентам
Несет ответственность за полный процесс управления инцидентами на предприятии. Его основные задачи — определение ресурсов и навыков, необходимых для разрешения инцидента, а также назначение исполнителя, который устранит проблему. - ИТ-оператор
Несут ответственность за выполнение повседневных операций внутри организаций — например, обслуживание серверов и резервное копирование данных. ИТ-операторов обычно используют в качестве дополнительных специалистов для устранения серьезных перебоев в обслуживании. - Группа по ликвидации серьезных инцидентов
Устраняет крупные сбои в работе ИТ-инфраструктуры. Может включать как технических специалистов на местах, так и выездные бригады.
План управления инцидентами
Чтобы улучшить процесс управления инцидентами, в ITIL сформулированы ключевые рекомендации, которые помогут повысить качество ИТ-услуг:
- Разработайте и задокументируйте несколько моделей управления инцидентами, которые будут включать все необходимые процедуры от выявления до разрешения.
- Четко определите роли и обязанности членов команды по управлению инцидентами, чтобы обеспечить подотчетность и эффективность.
- Установите уровни приоритета в зависимости от воздействия и срочности инцидента, чтобы гарантировать, что наиболее критические инциденты будут устранены в первую очередь.
- Используйте инструменты и технологии автоматизации для оптимизации процесса управления инцидентами и повышения эффективности.
- Предоставьте пользователям возможности самообслуживания, чтобы сообщать об инцидентах, проверять их статус и снижать нагрузку на группы поддержки.
- Внедряйте упреждающий мониторинг ИТ-услуг для выявления инцидентов до того, как они повлияют на работу пользователей.
- Настройте стабильную коммуникацию на каждом этапе управления инцидентом.
- Анализируйте инциденты, чтобы улучшить процессы по их обработке.
Как управлять инцидентами с помощью service desk
Жизненный цикл управления инцидентами включает в себя множество действий, этапов и ролей. Контролировать все это вручную, через разрозненные каналы и сервисы, значит рисковать скоростью и качеством обслуживания.
Поэтому сегодня многие сервисные службы заводят управление инцидентами в service desk — единый портал для управления ИТ-услугами. Такое решение предусмотрено и в ITSM 365, что закрывает широкий спектр задач:
- Автоматизирует весь стек сервисных процессов по работе с инцидентами — от приема обращения до завершения и документирования.
- Позволяет сопоставлять процедуру по разрешению инцидента с требованиями SLA.
- Упрощает прием заявок и коммуникацию с пользователями за счет омниканальности.
- Обеспечивает наглядные отчеты по процессам с помощью интерактивных и кастомизируемых дашбордов для детальной аналитики управления инцидентами.
Приведем пример, как происходит работа с инцидентом в ITSM 365:
- Пользователь отправляет запрос в службу поддержки. Этот этап, кстати, можно ускорить с помощью интеграции service desk и системы мониторинга ИТ-активов. Тогда заявка появится в ITSM 365 автоматически.
- В запросе фиксируют подробные данные об инциденте.
- С помощью преднастроенного распределения по категориям инцидент автоматически попадает в определенную группу проблем.
- Система автоматически определяет время реакции на инцидент и сроки решения согласно нормативам SLA.
- Сотрудники ИТ-службы диагностируют заявку, при необходимости передают ее по линиям поддержки. При этом ITSM 365 можно использовать как базу знаний, если инцидент совпадает с ранее возникшими проблемами. А также настроить в системе автоматические сценарии переадресации заявки.
- Технические специалисты устраняют проблему и отмечают в системе соответствующий статус.
- Сотрудник поддержки закрывает обращение и подтверждает разрешение у пользователя. На этом же этапе пользователь может поставить оценку сервиса, которая попадет в сводную отчетность для анализа качества обслуживания.
Заключение
Управление инцидентами — это важный процесс, который обеспечивает максимально быстрое восстановление ИТ-услуг в случае неожиданного сбоя. Если вам нужна надежная и производительная система для управления инцидентами, обратитесь к специалистам ITSM 365. Мы поможем настроить service desk решение под специфику вашего бизнеса, чтобы вы смогли эффективно и результативно управлять даже самыми серьезными проблемами, а также минимизировать их влияние на клиентов и бизнес-операции организации.