Close

针对高速团队的事件管理

什么是 SLO(服务级别目标)?SLO、SLA 与 SLI 对比

在提供服务时,打造积极的用户体验至关重要,而这一切始于责任感。作为服务提供商,确保客户获得其对公司所期待的服务质量,是您的职责所在。

当您向客户做出承诺时,您需要一种方式来衡量自身的表现,并判断是否兑现了这份承诺。这正是各类服务级别(尤其是 SLO)发挥作用的地方。

您以前可能听说过 SLO、SLA 和 SLI,但是 SLO 到底是什么?了解 SLO 的含义,以及它如何帮助您为客户提供尽可能优质的服务。

什么是 SLO?

SLO(服务级别目标)是您设定的内部目标,旨在确保所提供的服务符合客户的期望。这些客户期望会在 SLA(服务级别协议,即您与客户之间的协议)中详细列出。

您可能会好奇,SLO 在实际应用中是什么样子的。我们以流媒体服务为例来具体说明。如果您通过自家网站提供视频流媒体服务,可能会在 SLA 中包含 99.9% 的正常运行时间。这意味着您的流媒体服务每月最多只能中断约 43.2 分钟。

SLO 在这一过程中发挥着关键作用,它能让您设定反映对客户承诺的内部目标。有了 SLO 后,团队就能对问题负责,并在问题影响到客户体验之前识别并解决它们。

SLO 的组成部分

SLO 有三个主要组成部分:指标目标时间窗口。指标是一个可量化的数值,例如停机时间或延迟时间;而目标则是您试图达到的具体数值,例如 99.9% 的正常运行时间。时间窗口指的是衡量该指标所需的时长范围,从一个月到一年不等。

当您针对特定时间段设定了要跟踪的目标和指标时,就能具体衡量自身的表现了。这会加快事件响应流程,使您能够在潜在的服务问题影响到客户之前就将其解决。

SLO、SLA 与 SLI 对比

SLA 面临的挑战

SLO、SLA 和 SLI 虽各有不同,但联系紧密。整个流程始于您与客户共同商定的 SLA。例如,您可能会承诺“24 小时内响应客户支持咨询”。

为了履行这一承诺,您可以将 SLO 定义为:“在特定时间段(例如某个月)内,90% 的客户支持咨询都能在 24 小时内得到响应。”

在这个例子中,您所针对的 SLI 就是客户支持响应时间。

SLO(服务级别目标)

SLO(服务级别目标)是指在设定时间段内为特定指标设定的目标值。例如,一个实际场景中的 SLO 可设定为“30 天内达到 99.99% 的正常运行时间”。因此,您需要衡量服务在一个月内的停机时间,以确保其不超过 4.32 分钟。

服务级别协议 (SLA)

SLA(服务级别协议)是服务提供商与客户之间签订的协议,其中列出了可量化的指标(如正常运行时间、响应时间等)以及双方的具体责任。

这些协议通常由公司的法务团队和业务开发团队共同制定,代表着对客户的正式承诺,以及未能履行这些承诺时需承担的后果。通常,后果包括经济处罚、服务抵免或许可证延期。

SLI 是您在 SLO 中所针对的指标,而 SLO 是您设定并用于衡量自身表现的内部目标。您制定这些 SLO 是为了满足 SLA 的要求,SLA 则是您的服务与使用该服务的客户之间达成的协议。

Jira Service Management 中,您可以快速创建 SLA,进而基于这些协议设定内部目标。

SLI(服务级别指标)

SLI(服务级别指标)用于衡量对 SLO 的实际达标情况。例如,若您的 SLA 承诺 99.95% 的正常运行时间,您的 SLO 可能会反映相同的目标值。而此时,SLI 就是对实际正常运行时间的测量结果,可能是 99.9%,也可能是 99.95%。要符合 SLA 的要求,SLI 必须达到或超过该协议中所规定的承诺标准。

错误预算

错误预算在 SLO 中至关重要,因为您不能只专注于确保服务始终可用。虽然正常运行时间很关键,但您还必须留出时间进行创新和产品更新。您的错误预算会告诉您有多少容错空间,从而让您明确可以进行多少试验和创新。

如果您的 SLO 设定为 30 天内 99.99% 的正常运行时间,那么在这 30 天内,您有大约 4 分钟的允许停机时间。这让敏捷团队能够在不违反服务协议的前提下进行创新。

SLO 是如何运作的?

让我们通过一个简单的 SLO 示例来更清晰地理解其运作方式。

首先,确定您想要追踪的关键指标。正常运行时间通常是最关键的指标之一,但您也可以使用诸如事件管理时间、准确性和吞吐量等指标。在本示例中,我们将使用停机时间作为关键指标。

如果您的 SLA 中包含“99.9% 正常运行时间保证”,那么您的 SLO 应反映这一点。要实现在 30 天内达到 99.9% 的正常运行时间,意味着一个月内的允许停机时间上限为 43.2 分钟。您可以使用正常运行时间监控服务来跟踪整个月的正常运行时间和停机时间。

月底时,您可以判断是否达成了 SLO。如果未达到您的 SLO,必须调查并纠正问题根源。您的错误预算也将受到影响,不过具体影响程度会根据事件严重性级别有所不同。

为什么 SLO 很重要?

SLO 是确保为客户提供优质服务的关键。它的价值不仅在于提升客户体验,还能提高性能、增强团队协作并简化规划流程。

使团队围绕共同目标协同一致

在为客户提供优质服务的过程中,团队合作至关重要。当您通过 SLO 设定清晰的期望时,产品、工程和业务团队就有了共同的目标可供聚焦。这种人人可为之努力的统一基准,能让各团队团结一致,朝着“为客户提供更优服务”这一共同目标努力。

提升产品与客户体验

在提供产品或服务时,客户体验才是核心所在。富有创新精神的公司会借助 SLO 为客户提供更优质的产品和服务,无论是最大限度地减少流媒体服务的停机时间,还是优化事件通信与响应时间。此外,SLO 还能帮助公司在服务问题影响客户之前就识别出它们,从而在关键时刻及时修复。

提高自动化程度

自动化是 ITSM(IT 服务管理)领域的最大趋势之一。它不仅能为企业节省时间和成本,还能提升客户体验。而 SLO 能为自动化监控和警报提供支持,让您能够持续跟踪正常运行时间及其他关键指标。

在当今的商业环境中,要想保持竞争力,自动化是必不可少的。通过将重复性任务自动化,不仅能减少人工操作需求、节省时间和成本,还能最大限度降低人为失误的风险。

减少停机期间

停机不仅对业务不利,还会带来负面的客户体验,从而可能导致客户转向竞争对手。SLO 通过简单、具体的指标来衡量服务可靠性,让您能够监控停机时间并解决导致停机的问题。错误预算则通过明确团队可承担的风险程度,帮助平衡创新与可靠性之间的关系。

SLO 最佳实践

虽然 SLO 能带来诸多益处,但遵循一些简单的最佳实践有助于简化 DevOps 流程并最大化 SLO 的价值。以下是几点提示:

  • 支撑您的 SLA:您的 SLO 应当为 SLA 提供支撑,这样您就能通过跟踪和优化停机时间等指标,确保达成与客户签订的服务协议。
  • 保持简洁:定义一长串 SLO 似乎是个好主意,但实际上,更有效的做法是保持简洁,聚焦于真正重要的指标。
  • 灵活调整:SLO 并非一成不变,因此不必害怕根据客户不断变化的需求对其进行调整。

使用 Jira Service Management 管理 SLO

如果懂得如何运用,SLO 会成为一种强大的资源。通过制定与 SLA 相匹配的 SLO,您能够确保提供卓越的服务和客户体验。最大限度地减少停机时间和缩短响应时间,最终会推动整体服务质量的提升。

借助 Jira Service Management,您可以轻松创建 SLA 和 SLO,为软件开发和 IT 团队提供指导。Jira 甚至允许团队进行实时协作,从而提高工作效率与协作质量。了解 Jira Service Management 如何帮助您着手实施 SLO。

后续内容
Error budget