Управление инцидентами ITIL: понятие и подходы к процессу руководства

19 июня 2024, 9 мин читать

По данным западных аналитиков, минута простоя ИТ-службы обходится сервисному бизнесу более чем в 5,5 тысячи долларов. Поэтому управление инцидентами называют одним из важнейших процессов, который обеспечивает быстрое восстановление стабильной работы службы поддержки и снижает влияние происшествий на бизнес-операции. В статье разберем, что называют инцидентами и как ими управлять.

Что такое инцидент

Управление инцидентами — один из ключевых процессов, который описан в библиотеке инфраструктуры информационных технологий (ITIL). Этот набор рекомендаций включает в себя лучшие практики для управления ИТ-услугами. Его основная цель — помочь согласовать ИТ-услуги организации с устоявшимися потребностями бизнеса.

ITIL предоставляет подробные описания жизненно важных ИТ-практик: процедуры, задачи, процессы, контрольные списки. Эти практики достаточно универсальны для поддержания стратегического роста компании, и при этом их можно адаптировать под специфику конкретного бизнеса.

Согласно ITIL, инцидент — это любое незапланированное прерывание работы или снижение качества услуги, которые предоставляется по линии ИТ. При этом инцидент может иметь различный характер: от внезапного сброса пароля до незапланированной остановки сервера.

Цель управления инцидентами — как можно быстрее восстановить нормальную работу служб в рамках SLA, обеспечить наилучший уровень качества и доступности услуг.

Поскольку инцидентов может произойти несколько, решать их все одновременно нецелесообразно и слишком затратно для бизнеса. Поэтому обычно инциденты ранжируют по приоритетности на основе срочности и степени воздействия на процессы. Чем выше приоритет, тем более критично инцидент может повлиять на функционирование предприятия.

Приведем несколько примеров самых распространенных инцидентов в сервисных службах:

Инцидент

Возможные причины

Последствия

Сбой в сети

Поломка оборудования, ошибка ПО, кибератака

Потеря подключения или доступа к критически важным системам

Сбой приложения

Ошибки кодирования, проблемы с конфигурацией

Сбой в работе ИТ-услуг, отсутствие доступа к приложению для конечных пользователей

Ухудшение сервиса

Недостаток ресурсов, плохое сетевое подключение, сбой оборудования

Снижение качества ИТ-услуг

Нарушение безопасности

Заражение вредоносным ПО, несанкционированный доступ

Утечка персональных данных, блокировка работы ИТ-службы

Аппаратный сбой

Износ, скачки напряжения, факторы окружающей среды

Простой в работе сервисной службы, снижение производительности

Потеря связи

Перегрузка сети, сбой оборудования, кибератака

Нарушение коммуникаций с конечными пользователями, невозможность своевременно среагировать на запрос

Различие между инцидентами и проблемами

Инцидент и проблема — не аналогичные названия одной сущности. В рамках ITIL, это два, пусть и родственных, но разных по целям и задачам процесса.

Управление инцидентами — это реактивный процесс. Его основное назначение — свести к минимуму влияние инцидентов на организацию. При этом управление инцидентами не включает выявление причин и их анализ.

Управление проблемами — это одновременно реактивный и упреждающий процесс. Его цель — выявить и устранить причины проблем. Кроме того, в рамках этого процесса находят постоянные решения, которые полностью исключают или снижают вероятность повторения проблемы.

Чтобы лучше понять разницу между управлением инцидентами и управлением проблемами, приведем пару примеров.

Допустим, клиент сообщает, что не может получить доступ к приложению. Команда управления инцидентами действует так:

регистрирует на обращение;
классифицирует его в зависимости от его приоритета и воздействия;
исследует и диагностирует инцидент;
как можно быстрее работает над тем, чтобы восстановить работу сервиса.

В случае с управлением проблемой процедура имеет несколько иной вид. Если с одним и тем же приложением происходят повторяющиеся инциденты, ими занимается команда управления проблемами:

анализирует инциденты;
выявляет их причины, находит закономерности между ними;
ищет постоянное решение, которое устранит проблему сейчас и будет действовать на опережение — например, внесет изменения в приложение так, чтобы предотвратить возникновение проблемы в будущем.

Для наглядности ключевые различия между управлением инцидентами и управлением проблемами по ITIL — в таблице:

Характеристика

Управление инцидентами

Управление проблемами

Фокус работы

Реагирование на происшествие

Реагирование на проблему и поиск постоянного решения

Цель

Быстро и эффективно восстановить нормальное обслуживание и операции

Не допустить возникновения проблемы в будущем

Объем работы

Точечное управление текущим инцидентом и его влиянием на бизнес

Более широкое воздействие, направленное на устранение коренных причин проблем

Триггер

Момент фактического возникновения инцидента

Закономерности и тенденции, выявленные в прошлом

Временные рамки

Краткосрочный характер

Долгосрочный характер

Процесс

Следует заранее определенному процессу для максимально быстрого восстановления услуг

Следует установленному процессу выявления, анализа и устранения основных причин проблем

Желаемый результат

Устранить инцидент и восстановить обслуживание

Не допустить повторения проблем

Как осуществить процесс управления инцидентами

Любой процесс управления инцидентами включает в себя набор определенных шагов, которые помогают быстро и эффективно восстановить работу сервиса:

Шаг 1: Идентификация

Сотрудники или клиенты могут сообщать об инцидентах по разным каналам: через личные сообщения, самообслуживание, по телефону, электронной почте, в SMS или в чате. Команда службы поддержки получает отчет и решает, является ли проблема инцидентом или типовым запросом.

Запрос на обслуживание — это запрос пользователя на предоставление какой-либо услуги. Например, создать новую учетную запись, изменить пароль, обновить оборудование или ПО. Обычно типовые запросы менее срочные, чем инциденты, и обрабатываются с помощью заранее определенных процессов.

Шаг 2. Регистрация

После выявления инцидента он регистрируется в службе поддержки. Журнал инцидентов должен включать следующую информацию:

Имя и контактные данные лица, сообщившего о происшествии.
Дата и время.
Описание инцидента.
Уникальный идентификационный номер для отслеживания.

Чем более подробной будет запись, тем быстрее и качественнее команда поддержки сможет устранить инцидент. Кроме того, команда управления проблемами сможет глубже проанализировать причину происшествия и разработает более детальные решения и рекомендации.

Шаг 3: Классификация

На этом этапе инциденту присваивают логическую категорию и статус. При правильном подходе категоризация может в дальнейшем:

упростить регистрацию инцидентов;
уменьшить избыточность действий;
ускорить разрешение;
быстро определять, легко ли разрешим инцидент или требуется эскалация.

Иногда категоризация может даже позволить автоматически расставлять приоритеты инцидентов. Например, инцидент в категории «отказ системы» автоматически будет иметь высокий приоритет.

Шаг 4: Приоритизация

На этом этапе ИТ-служба определяет, насколько сильно инцидент влияет на работу компании и как быстро его необходимо устранить. Как правило, здесь учитывают:

финансовое влияние инцидента на бизнес;
количество пользователей, которые будут затронуты в процессе инцидента;
последствия для соответствия требованиям SLA.

Приоритеты обычно следующие:

Низкий — инциденты вызывают лишь незначительные перебои в работе бизнеса. Устранение не затронет качество обслуживания.
Средний — могут вызвать умеренные перерывы в работе компании при некритичных финансовых и юридических последствиях для бизнеса.
Высокий — затрагивают большое количество пользователей, вызывают серьезные сбои в работе бизнеса, могут привести к значительному снижению удовлетворенности клиентов и серьезным финансовым последствиям.

Приоритетность в разрешении инцидентов гарантирует, что ИТ-команда сосредоточится на самом важном, а не будет тратить время на проблемы низкого уровня, в то время как серьезные происшествия наносят ущерб клиентам или сотрудникам. Как правило, подробное описание приоритетов фиксируют и согласовывают в SLA.

Шаг 5: Реагирование

Этот шаг включает в себя пять этапов:

Первоначальная диагностика
Сотрудник службы поддержки пытается быстро диагностировать проблему на поверхностном уровне. Клиенту или сотруднику, который сообщил об инциденте, задают уточняющие вопросы, чтобы получить общее представление о проблеме. На основании этого специалист выдвигают гипотезу о причине, чтобы исправить ее самостоятельно, либо передать ее соответствующей команде.
Эскалация
Этот этап — опциональный. Он вступает в силу, если инцидент требует подключения квалифицированных специалистов службы поддержки. В зависимости от ситуации инцидент будет передан либо непосредственно технической команде, либо высшему руководству.
Исследование
Сотрудники службы поддержки пытаются подтвердить правильность первоначальной гипотезы. Затем изучают более глубокие причины и возможные решения инцидента — например, исправление ПО или замена оборудования. Кроме того, на этом этапе сервисная служба уведомляет конечных пользователей об инциденте, его причинах и сроках устранения неполадок.
Разрешение инцидента и восстановление рабочего процесса
Техническая команда устраняет проблему и восстанавливает работу систем. При необходимости, оборудование или ПО тестируют на предмет возможных ошибок. Затем пользователям сообщают, что инцидент устранен. А весь процесс разрешения заносят в специальный отчет.
Закрытие инцидента
Заявку передают обратно в службу поддержки. На этом этапе сервисная команда делает запрос к клиенту или сотруднику, от которого поступило обращение, удовлетворен ли он разрешением инцидента. Далее инцидент закрывают и проводят оценку принятых мер.

Пять этапов "Реагирования", которые помогают быстро и эффективно восстановить работу сервиса

Многоуровневый подход к управлению инцидентами

Сущность инцидентов и процессы по их устранению зависят от специфики бизнеса. Чтобы гибко адаптировать процедуру поддержки и устранения сбоев, в сервисных службах часто применяют универсальную ролевую модель с зонами ответственности:

Техническая поддержка по уровням
В компаниях с развитыми бизнес-процессами ИТ-поддержку структурно разделяют на несколько уровней или линий. Сотрудники первой линии принимают от клиентов заявки об инцидентах, регистрируют их, классифицируют и предпринимают немедленные меры для восстановления обслуживания. Если инцидент не удается устранить в течение заданного периода времени, его передают на следующий уровень для более глубокой и специализированной работы.
Менеджер по инцидентам
Несет ответственность за полный процесс управления инцидентами на предприятии. Его основные задачи — определение ресурсов и навыков, необходимых для разрешения инцидента, а также назначение исполнителя, который устранит проблему.
ИТ-оператор
Несут ответственность за выполнение повседневных операций внутри организаций — например, обслуживание серверов и резервное копирование данных. ИТ-операторов обычно используют в качестве дополнительных специалистов для устранения серьезных перебоев в обслуживании.
Группа по ликвидации серьезных инцидентов
Устраняет крупные сбои в работе ИТ-инфраструктуры. Может включать как технических специалистов на местах, так и выездные бригады.

План управления инцидентами

Чтобы улучшить процесс управления инцидентами, в ITIL сформулированы ключевые рекомендации, которые помогут повысить качество ИТ-услуг:

Разработайте и задокументируйте несколько моделей управления инцидентами, которые будут включать все необходимые процедуры от выявления до разрешения.
Четко определите роли и обязанности членов команды по управлению инцидентами, чтобы обеспечить подотчетность и эффективность.
Установите уровни приоритета в зависимости от воздействия и срочности инцидента, чтобы гарантировать, что наиболее критические инциденты будут устранены в первую очередь.
Используйте инструменты и технологии автоматизации для оптимизации процесса управления инцидентами и повышения эффективности.
Предоставьте пользователям возможности самообслуживания, чтобы сообщать об инцидентах, проверять их статус и снижать нагрузку на группы поддержки.
Внедряйте упреждающий мониторинг ИТ-услуг для выявления инцидентов до того, как они повлияют на работу пользователей.
Настройте стабильную коммуникацию на каждом этапе управления инцидентом.
Анализируйте инциденты, чтобы улучшить процессы по их обработке.

Как управлять инцидентами с помощью service desk

Жизненный цикл управления инцидентами включает в себя множество действий, этапов и ролей. Контролировать все это вручную, через разрозненные каналы и сервисы, значит рисковать скоростью и качеством обслуживания.

Поэтому сегодня многие сервисные службы заводят управление инцидентами в service desk — единый портал для управления ИТ-услугами. Такое решение предусмотрено и в ITSM 365, что закрывает широкий спектр задач:

Автоматизирует весь стек сервисных процессов по работе с инцидентами — от приема обращения до завершения и документирования.
Позволяет сопоставлять процедуру по разрешению инцидента с требованиями SLA.
Упрощает прием заявок и коммуникацию с пользователями за счет омниканальности.
Обеспечивает наглядные отчеты по процессам с помощью интерактивных и кастомизируемых дашбордов для детальной аналитики управления инцидентами.

Приведем пример, как происходит работа с инцидентом в ITSM 365:

Пользователь отправляет запрос в службу поддержки. Этот этап, кстати, можно ускорить с помощью интеграции service desk и системы мониторинга ИТ-активов. Тогда заявка появится в ITSM 365 автоматически.
В запросе фиксируют подробные данные об инциденте.
С помощью преднастроенного распределения по категориям инцидент автоматически попадает в определенную группу проблем.
Система автоматически определяет время реакции на инцидент и сроки решения согласно нормативам SLA.
Сотрудники ИТ-службы диагностируют заявку, при необходимости передают ее по линиям поддержки. При этом ITSM 365 можно использовать как базу знаний, если инцидент совпадает с ранее возникшими проблемами. А также настроить в системе автоматические сценарии переадресации заявки.
Технические специалисты устраняют проблему и отмечают в системе соответствующий статус.
Сотрудник поддержки закрывает обращение и подтверждает разрешение у пользователя. На этом же этапе пользователь может поставить оценку сервиса, которая попадет в сводную отчетность для анализа качества обслуживания.

Заключение

Управление инцидентами — это важный процесс, который обеспечивает максимально быстрое восстановление ИТ-услуг в случае неожиданного сбоя. Если вам нужна надежная и производительная система для управления инцидентами, обратитесь к специалистам ITSM 365. Мы поможем настроить service desk решение под специфику вашего бизнеса, чтобы вы смогли эффективно и результативно управлять даже самыми серьезными проблемами, а также минимизировать их влияние на клиентов и бизнес-операции организации.