Управление инцидентами для высокоскоростных команд
Что такое цель по уровню обслуживания (SLO)? SLA, SLO и SLI: в чем разница?
В сфере услуг жизненно важно сформировать у пользователей положительное впечатление, и первым шагом к этому является подотчетность. Именно вы, как поставщик услуг, отвечаете за то, чтобы качество обслуживания клиентов соответствовало их ожиданиям от вашей компании.
Когда вы даете клиенту обещание, вам нужно найти способ измерить показатели своей работы, чтобы определить, выполняется ли оно. В этом помогут разные уровни обслуживания, в частности SLO.
Возможно, вы уже слышали об SLO, SLA и SLI, но что такое именно SLO? Узнайте, что представляет собой этот показатель и как он помогает предоставлять клиентам услуги самого высокого качества.
Что такое SLO?
Цель по уровню обслуживания (SLO) — это внутренняя цель, которую вы ставите перед собой, чтобы обеспечить соответствие ваших услуг ожиданиям клиентов. Эти ожидания фиксируются в соглашениях об уровнях обслуживания (SLA) между вами и клиентом.
Как же выглядит SLO на практике? Для примера возьмем стриминговый сервис. Если вы предоставляете услугу стриминга видео через свой веб-сайт, вы можете включить в свои соглашения об уровне обслуживания время безотказной работы 99,9 %. Это означает, что в течение месяца ваш стриминговый сервис может быть отключен всего на 43,2 минуты.
Вот здесь и наступает черед SLO: они позволяют задать внутренние цели, отражающие то, что вы пообещали клиентам. Если заданы SLO, то команды могут видеть проблемы, нести ответственность за них и решать их еще до того, как они скажутся на качестве обслуживания клиентов.
Компоненты SLO
SLO состоит из трех основных компонентов: показателя, цели и периода. Показатель — это измеримое число, например время простоя или задержки, а цель — конкретный уровень, которого вы пытаетесь достичь, например 99,9 % времени безотказной работы. Период показывает, за какой интервал измеряется этот показатель (можно выбрать от месяца до года).
Когда есть цель и есть показатель, который отслеживается в течение определенного периода, производительность можно оценить достаточно точно. В результате ускоряется процесс реагирования на инциденты, а потенциальные проблемы в обслуживании можно решить еще до того, как они затронут клиентов.
SLA, SLO и SLI: в чем разница?
Задача SLA
Несмотря на то, что SLO, SLA и SLI — это не одно и то же, эти показатели тесно связаны друг с другом. Для начала вы с клиентом заключаете взаимное соглашение об уровне обслуживания (SLA). Например, вы можете взять обязательство отвечать на запросы в службу поддержки клиентов в течение 24 часов.
Чтобы выполнить это обязательство, можно определить SLO следующим образом: «Отвечать на запросы клиентов в течение 24 часов за определенный период, например 90 % времени за заданный месяц».
Отсюда напрямую вытекает SLI — в данном примере это время ответа службы поддержки клиентов.
Цель по уровню обслуживания (SLO)
SLO (цель по уровню обслуживания) определяет целевое значение конкретного показателя за заданный период времени. Реальный пример SLO — 99,99 % безотказной работы в течение 30 дней. В конечном итоге вам потребуется измерить суммарное время простоя вашей услуги за месяц, чтобы убедиться, что оно не превышает 4,32 минуты.
Соглашение об уровне обслуживания (SLA)
SLA (соглашение об уровне обслуживания) — это соглашение между поставщиком и клиентом, в котором оговариваются измеряемые показатели, например время безотказной работы или время реагирования, а также конкретные меры ответственности.
Обычно эти соглашения составляются юридическими и бизнес-командами компании. В них включаются ваши официальные обязательства перед клиентами и последствия, которые повлечет за собой невыполнение этих обещаний. Как правило, последствия включают в себя штрафы, компенсации или продление лицензий.
SLI — это показатель, на который вы ориентируетесь в SLO (внутренняя цель, которую вы ставите и измеряете для отслеживания своей производительности). SLO создаются для соблюдения требований SLA (соглашения между вами и клиентом, пользующимся вашей услугой).
В Jira Service Management можно быстро создать SLA, на основе которых вы будете ставить перед собой внутренние цели.
Индикатор уровня обслуживания (SLI)
SLI (Service Level Indicator — индикатор уровня обслуживания) измеряет фактическое соответствие SLO. Например, если ваше SLA гарантирует безотказную работу в течение 99,95% времени, в SLO может быть обозначена та же цель. То есть, SLI — фактический показатель времени безотказной работы, который может быть 99,9% или 99,95%. Чтобы удовлетворять требования SLA, индикатор SLI должен соответствовать обещаниям, зафиксированным в этом документе, или превосходить их.
Допустимый простой
Так как никому не под силу заниматься исключительно обеспечением постоянной доступности своих сервисов, в целях SLO очень важно учесть допустимые простои. Безусловно, время безотказной работы очень важно, но необходимо еще успевать внедрять инновации и обновлять продукт. Значение допустимого простоя показывает допустимую степень ошибок или, иными словами, пространство, которое у вас есть для экспериментов и внедрения инноваций.
Если вы в SLO задали время безотказной работы 99,99 % в течение 30 дней, то допустимое время простоя в течение этих 30 дней составляет примерно 4 минуты. Это дает возможность agile-командам внедрять инновации, не нарушая соглашения об уровнях обслуживания.
Как работают SLO?
Чтобы лучше разобраться, как работают SLO, рассмотрим простой пример.
Для начала определим ключевые показатели, которые будем отслеживать. Обычно одним из самых важных является время безотказной работы, но также можно использовать и другие показатели, например время управления инцидентами, корректность или пропускную способность. В этом примере в качестве ключевого показателя мы возьмем время простоя.
Если в вашем SLA гарантируется безотказная работа в течение 99,9 % времени, именно это и должно отражаться в SLO. 99,9 % бесперебойной работы в течение 30 дней означает, что вы ограничены 43,2 минутами простоя в месяц. Отслеживать время безотказной работы и простоя в месяц можно с помощью служб мониторинга бесперебойной работы.
В конце месяца вы сможете увидеть, было достигнуто целевое значение SLO или нет. Если нет, то очень важно расследовать и устранить причину такой проблемы. Это также скажется и на допустимом простое, хотя здесь последствия будут варьироваться в зависимости от уровней серьезности инцидентов.
В чем важность SLO?
SLO играют главную роль в обеспечении высочайшего качества обслуживания ваших клиентов. Они не только улучшают впечатления клиентов, но и повышают производительность, укрепляют сотрудничество и упрощают планирование.
Согласованная работа команд для достижения целей
Чтобы обслуживать клиентов на самом высоком уровне, необходима командная работа. Задавая четкие ожидания с помощью SLO, вы даете командам по продукту, разработке и бизнес-группам конкретные ориентиры. Наличие четкой цели, к которой все могут стремиться, объединяет команды и помогает направить усилия в общее русло для улучшения обслуживания клиентов.
Повышение удобства использования продуктов и улучшение клиентского опыта
Когда вы поставляете продукт или предоставляете услугу, нельзя сбрасывать со счетов клиентский опыт. Инновационные компании используют SLO для улучшения своих продуктов и услуг для клиентов, будь то минимальные простои стримингового сервиса или более удобное сообщение об инцидентах и ускорение реагирования на них. Кроме того, SLO помогают обнаруживать проблемы с услугами до того, как они затронут ваших клиентов, и своевременно их устранять.
Расширение автоматизации
Автоматизация — одна из самых заметных тенденций в управлении ИТ-услугами (ITSM). Она экономит время и деньги компаний, а также повышает качество обслуживания клиентов. SLO поддерживают автоматизированный мониторинг и оповещения, позволяя непрерывно отслеживать время безотказной работы и другие ключевые показатели.
Чтобы успешно конкурировать в современном деловом мире, без автоматизации не обойтись. Автоматизация повторяющихся задач уменьшает потребность в ручном труде, экономит время и деньги и сводит к минимуму риск человеческих ошибок.
Сокращение времени простоя
Простои не только наносят ущерб бизнесу, но и вызывают разочарование клиентов, подталкивая их к конкурентам. SLO позволяют измерять надежность по простым и конкретным показателям, давая возможность отслеживать простои и устранять их причины. Допустимые простои показывают командам, на какой риск они могут пойти, чтобы соблюсти оптимальный баланс между инновационностью и надежностью.
Рекомендации по SLO
Хотя SLO полезны сами по себе, некоторые простые рекомендации помогут упростить DevOps и извлечь из SLO максимум. Вот несколько советов.
- Подкрепляйте свое SLA. Ваша цель SLO должна подкреплять SLA, чтобы можно было отслеживать и оптимизировать такие показатели, как простои, обеспечивая соблюдение ваших соглашений с клиентами.
- Не усложняйте. Может показаться, что чем больше SLO, тем лучше, но это не так. Лучше выбрать самые приоритетные показатели и описать их как можно конкретнее и проще.
- Адаптируйте. SLO — не догма, поэтому не бойтесь подстраивать их под меняющиеся потребности своих клиентов.
Управляйте SLO с помощью Jira Service Management
SLO — мощный ресурс в умелых руках. Устанавливая SLO в соответствии со своими соглашениями SLA, вы с уверенностью сможете предоставлять клиентам услуги высочайшего качества. Сведя к минимуму простои и время реагирования, вы получите более эффективное обслуживание в целом.
В Jira Service Management можно легко создавать соглашения SLA и SLO для ИТ-команд и команд разработки ПО. Более того, в Jira команды могут продуктивно и сообща работать прямо в реальном времени. Узнайте, как Jira Service Management может помочь начать работу с SLO.
Изучайте информирование об инцидентах с помощью Statuspage
В этом руководстве мы покажем, как использовать шаблоны инцидентов, чтобы наладить эффективную коммуникацию во время разрешения инцидента. Применимо ко многим видам технических сбоев.
Читать учебное руководствоВажность процесса разбора инцидентов
Разбор инцидента, или анализ результатов реагирования на инцидент, — это лучший способ проработать произошедшее и зафиксировать полученный опыт.
Читать статью