Управление инцидентами ITIL: понятие и подходы к процессу руководства

9 мин читать

По данным западных аналитиков, минута простоя ИТ-службы обходится сервисному бизнесу более чем в 5,5 тысячи долларов. Поэтому управление инцидентами называют одним из важнейших процессов, который обеспечивает быстрое восстановление стабильной работы службы поддержки и снижает влияние происшествий на бизнес-операции. В статье разберем, что называют инцидентами и как ими управлять.

Что такое инцидент

Управление инцидентами — один из ключевых процессов, который описан в библиотеке инфраструктуры информационных технологий (ITIL). Этот набор рекомендаций включает в себя лучшие практики для управления ИТ-услугами. Его основная цель — помочь согласовать ИТ-услуги организации с устоявшимися потребностями бизнеса. 

ITIL предоставляет подробные описания жизненно важных ИТ-практик: процедуры, задачи, процессы, контрольные списки. Эти практики достаточно универсальны для поддержания стратегического роста компании, и при этом их можно адаптировать под специфику конкретного бизнеса. 

Согласно ITIL, инцидент — это любое незапланированное прерывание работы или снижение качества услуги, которые предоставляется по линии ИТ. При этом инцидент может иметь различный характер: от внезапного сброса пароля до незапланированной остановки сервера.

Цель управления инцидентами — как можно быстрее восстановить нормальную работу служб в рамках SLA, обеспечить наилучший уровень качества и доступности услуг.

Поскольку инцидентов может произойти несколько, решать их все одновременно нецелесообразно и слишком затратно для бизнеса. Поэтому обычно инциденты ранжируют по приоритетности на основе срочности и степени воздействия на процессы. Чем выше приоритет,  тем более критично инцидент может повлиять на функционирование предприятия.

Приведем несколько примеров самых распространенных инцидентов в сервисных службах:

Инцидент

Возможные причины

Последствия

Сбой в сети

Поломка оборудования, ошибка ПО, кибератака

Потеря подключения или доступа к критически важным системам

Сбой приложения

Ошибки кодирования, проблемы с конфигурацией

Сбой в работе ИТ-услуг, отсутствие доступа к приложению для конечных пользователей

Ухудшение сервиса

Недостаток ресурсов, плохое сетевое подключение, сбой оборудования

Снижение качества ИТ-услуг

Нарушение безопасности

Заражение вредоносным ПО, несанкционированный доступ

Утечка персональных данных, блокировка работы ИТ-службы

Аппаратный сбой

Износ, скачки напряжения, факторы окружающей среды

Простой в работе сервисной службы, снижение производительности

Потеря связи

Перегрузка сети, сбой оборудования, кибератака

Нарушение коммуникаций с конечными пользователями, невозможность своевременно среагировать на запрос

Различие между инцидентами и проблемами

Инцидент и проблема — не аналогичные названия одной сущности. В рамках ITIL, это два, пусть и родственных, но разных по целям и задачам процесса. 

Управление инцидентами — это реактивный процесс. Его основное назначение —  свести к минимуму влияние инцидентов на организацию. При этом управление инцидентами не включает выявление причин и их анализ. 

Управление проблемами — это одновременно реактивный и упреждающий процесс. Его цель — выявить и устранить причины проблем. Кроме того, в рамках этого процесса находят постоянные решения, которые полностью исключают или снижают вероятность повторения проблемы.

Чтобы лучше понять разницу между управлением инцидентами и управлением проблемами, приведем пару примеров.

Допустим, клиент сообщает, что не может получить доступ к приложению. Команда управления инцидентами действует так:

  • регистрирует на обращение;
  • классифицирует его в зависимости от его приоритета и воздействия;
  • исследует и диагностирует инцидент;
  • как можно быстрее работает над тем, чтобы восстановить работу сервиса.

В случае с управлением проблемой процедура имеет несколько иной вид. Если с одним и тем же приложением происходят повторяющиеся инциденты, ими занимается команда управления проблемами:

  • анализирует инциденты;
  • выявляет их причины, находит закономерности между ними;
  • ищет постоянное решение, которое устранит проблему сейчас и будет действовать на опережение — например, внесет изменения в приложение так, чтобы предотвратить возникновение проблемы в будущем.

Для наглядности ключевые различия между управлением инцидентами и управлением проблемами по ITIL — в таблице:

Характеристика

Управление инцидентами

Управление проблемами

Фокус работы

Реагирование на происшествие

Реагирование на проблему и поиск постоянного решения

Цель

Быстро и эффективно восстановить нормальное обслуживание и операции

Не допустить возникновения проблемы в будущем

Объем работы

Точечное управление текущим инцидентом и его влиянием на бизнес

Более широкое воздействие, направленное на устранение коренных причин проблем

Триггер

Момент фактического возникновения инцидента

Закономерности и тенденции, выявленные в прошлом

Временные рамки

Краткосрочный характер

Долгосрочный характер

Процесс

Следует заранее определенному процессу для максимально быстрого восстановления услуг

Следует установленному процессу выявления, анализа и устранения основных причин проблем

Желаемый результат

Устранить инцидент и восстановить обслуживание

Не допустить повторения проблем

Как осуществить процесс управления инцидентами

Любой процесс управления инцидентами включает в себя набор определенных шагов, которые помогают быстро и эффективно восстановить работу сервиса:

Шаг 1: Идентификация

Сотрудники или клиенты могут сообщать об инцидентах по разным каналам: через личные сообщения, самообслуживание, по телефону, электронной почте, в SMS или в чате. Команда службы поддержки получает отчет и решает, является ли проблема инцидентом или типовым запросом. 

Запрос на обслуживание — это запрос пользователя на предоставление какой-либо услуги. Например, создать новую учетную запись, изменить пароль, обновить оборудование или ПО. Обычно типовые запросы менее срочные, чем инциденты, и обрабатываются с помощью заранее определенных процессов.

Шаг 2. Регистрация

После выявления инцидента он регистрируется в службе поддержки. Журнал инцидентов должен включать следующую ​​информацию:

  • Имя и контактные данные лица, сообщившего о происшествии.
  • Дата и время.
  • Описание инцидента. 
  • Уникальный идентификационный номер для отслеживания.

Чем более подробной будет запись, тем быстрее и качественнее команда поддержки сможет устранить инцидент. Кроме того, команда управления проблемами сможет глубже проанализировать причину происшествия и разработает более детальные решения и рекомендации.

Шаг 3: Классификация 

На этом этапе инциденту присваивают логическую категорию и статус. При правильном подходе категоризация может в дальнейшем:

  • упростить регистрацию инцидентов;
  • уменьшить избыточность действий;
  • ускорить разрешение;
  • быстро определять, легко ли разрешим инцидент или требуется эскалация. 

Иногда категоризация может даже позволить автоматически расставлять приоритеты инцидентов. Например, инцидент в категории «отказ системы» автоматически будет иметь высокий приоритет. 

Шаг 4: Приоритизация

На этом этапе ИТ-служба определяет, насколько сильно инцидент влияет на работу компании и как быстро его необходимо устранить. Как правило, здесь учитывают:

  • финансовое влияние инцидента на бизнес;
  • количество пользователей, которые будут затронуты в процессе инцидента;
  • последствия для соответствия требованиям SLA.

Приоритеты обычно следующие:

  • Низкий — инциденты вызывают лишь незначительные перебои в работе бизнеса. Устранение не затронет качество обслуживания.
  • Средний —  могут вызвать умеренные перерывы в работе компании при некритичных финансовых и юридических последствиях для бизнеса.
  • Высокий — затрагивают большое количество пользователей, вызывают серьезные сбои в работе бизнеса, могут привести к значительному снижению удовлетворенности клиентов и серьезным финансовым последствиям.

Приоритетность в разрешении инцидентов гарантирует, что ИТ-команда сосредоточится на самом важном, а не будет тратить время на проблемы низкого уровня, в то время как серьезные происшествия наносят ущерб клиентам или сотрудникам. Как правило, подробное описание приоритетов фиксируют и согласовывают в SLA.

Шаг 5: Реагирование

Этот шаг включает в себя пять этапов:

  1. Первоначальная диагностика
    Сотрудник службы поддержки пытается быстро диагностировать проблему на поверхностном уровне. Клиенту или сотруднику, который сообщил об инциденте, задают уточняющие вопросы, чтобы получить общее представление о проблеме. На основании этого специалист выдвигают гипотезу о причине, чтобы исправить ее самостоятельно, либо передать ее соответствующей команде.
  2. Эскалация
    Этот этап — опциональный. Он вступает в силу, если инцидент требует подключения квалифицированных специалистов службы поддержки. В зависимости от ситуации инцидент будет передан либо непосредственно технической команде, либо высшему руководству.
  3. Исследование
    Сотрудники службы поддержки пытаются подтвердить правильность первоначальной гипотезы. Затем изучают более глубокие причины и возможные решения инцидента — например, исправление ПО или замена оборудования. Кроме того, на этом этапе сервисная служба уведомляет конечных пользователей об инциденте, его причинах и сроках устранения неполадок.
  4. Разрешение инцидента и восстановление рабочего процесса
    Техническая команда устраняет проблему и восстанавливает работу систем. При необходимости, оборудование или ПО тестируют на предмет возможных ошибок. Затем пользователям сообщают, что инцидент устранен. А весь процесс разрешения заносят в специальный отчет.
  5. Закрытие инцидента
    Заявку передают обратно в службу поддержки. На этом этапе сервисная команда делает запрос к клиенту или сотруднику, от которого поступило обращение, удовлетворен ли он разрешением инцидента. Далее инцидент закрывают и проводят оценку принятых мер.
Пять этапов "Реагирования", которые помогают быстро и эффективно восстановить работу сервиса

Многоуровневый подход к управлению инцидентами

Сущность инцидентов и процессы по их устранению зависят от специфики бизнеса. Чтобы гибко адаптировать процедуру поддержки и устранения сбоев, в сервисных службах часто применяют универсальную ролевую модель с зонами ответственности:

  • Техническая поддержка по уровням
    В компаниях с развитыми бизнес-процессами ИТ-поддержку структурно разделяют на несколько уровней или линий. Сотрудники первой линии принимают от клиентов заявки об инцидентах, регистрируют их, классифицируют и предпринимают немедленные меры для восстановления обслуживания. Если инцидент не удается устранить в течение заданного периода времени, его передают на следующий уровень для более глубокой и специализированной работы.
  • Менеджер по инцидентам
    Несет ответственность за полный процесс управления инцидентами на предприятии. Его основные задачи —  определение ресурсов и навыков, необходимых для разрешения инцидента, а также назначение исполнителя, который устранит проблему.
  • ИТ-оператор
    Несут ответственность за выполнение повседневных операций внутри организаций — например, обслуживание серверов и резервное копирование данных. ИТ-операторов обычно используют в качестве дополнительных специалистов для устранения серьезных перебоев в обслуживании.
  • Группа по ликвидации серьезных инцидентов
    Устраняет крупные сбои в работе ИТ-инфраструктуры. Может включать как технических специалистов на местах, так и выездные бригады.

План управления инцидентами

Чтобы улучшить процесс управления инцидентами, в ITIL сформулированы ключевые рекомендации, которые помогут повысить качество ИТ-услуг:

  • Разработайте и задокументируйте несколько моделей управления инцидентами, которые будут включать все необходимые процедуры от выявления до разрешения.
  • Четко определите роли и обязанности членов команды по управлению инцидентами, чтобы обеспечить подотчетность и эффективность.
  • Установите уровни приоритета в зависимости от воздействия и срочности инцидента, чтобы гарантировать, что наиболее критические инциденты будут устранены в первую очередь.
  • Используйте инструменты и технологии автоматизации для оптимизации процесса управления инцидентами и повышения эффективности.
  • Предоставьте пользователям возможности самообслуживания, чтобы сообщать об инцидентах, проверять их статус и снижать нагрузку на группы поддержки.
  • Внедряйте упреждающий мониторинг ИТ-услуг для выявления инцидентов до того, как они повлияют на работу пользователей.
  • Настройте стабильную коммуникацию на каждом этапе управления инцидентом.
  • Анализируйте инциденты, чтобы улучшить процессы по их обработке.

Как управлять инцидентами с помощью service desk

Жизненный цикл управления инцидентами включает в себя множество действий, этапов и ролей. Контролировать все это вручную, через разрозненные каналы и сервисы, значит рисковать скоростью и качеством обслуживания. 

Поэтому сегодня многие сервисные службы заводят управление инцидентами в service desk — единый портал для управления ИТ-услугами. Такое решение предусмотрено и в ITSM 365, что закрывает широкий спектр задач:

  • Автоматизирует весь стек сервисных процессов по работе с инцидентами — от приема обращения до завершения и документирования.
  • Позволяет сопоставлять процедуру по разрешению инцидента с требованиями SLA.
  • Упрощает прием заявок и коммуникацию с пользователями за счет омниканальности.
  • Обеспечивает наглядные отчеты по процессам с помощью интерактивных и кастомизируемых дашбордов для детальной аналитики управления инцидентами.

Приведем пример, как происходит работа с инцидентом в ITSM 365:

  1. Пользователь отправляет запрос в службу поддержки. Этот этап, кстати, можно ускорить с помощью интеграции service desk и системы мониторинга ИТ-активов. Тогда заявка появится в ITSM 365 автоматически.
  2. В запросе фиксируют подробные данные об инциденте.
  3. С помощью преднастроенного распределения по категориям инцидент автоматически попадает в определенную группу проблем.
  4. Система автоматически определяет время реакции на инцидент и сроки решения согласно нормативам SLA.
  5. Сотрудники ИТ-службы диагностируют заявку, при необходимости передают ее по линиям поддержки. При этом ITSM 365 можно использовать как базу знаний, если инцидент совпадает с ранее возникшими проблемами. А также настроить в системе автоматические сценарии переадресации заявки.
  6. Технические специалисты устраняют проблему и отмечают в системе соответствующий статус.
  7. Сотрудник поддержки закрывает обращение и подтверждает разрешение у пользователя. На этом же этапе пользователь может поставить оценку сервиса, которая попадет в сводную отчетность для анализа качества обслуживания.

Заключение

Управление инцидентами — это важный процесс, который обеспечивает максимально быстрое восстановление ИТ-услуг в случае неожиданного сбоя. Если вам нужна надежная и производительная система для управления инцидентами, обратитесь к специалистам ITSM 365. Мы поможем настроить service desk решение под специфику вашего бизнеса, чтобы вы смогли эффективно и результативно управлять даже самыми серьезными проблемами, а также минимизировать их влияние на клиентов и бизнес-операции организации.