Close

ベロシティの高いチームのためのインシデント管理

SLO (サービスレベル目標) とは? SLO、SLA、SLI の比較

サービスの提供には、満足度の高いユーザー エクスペリエンスを作り出すことが不可欠であり、それは説明責任から始まります。サービス プロバイダーは、カスタマーがサービス プロバイダーに期待するサービス品質を確実に受けられるようにする必要があります。

カスタマーと約束するには、自分のパフォーマンスを測定し、その約束を果たしたかどうかを判断する方法が必要です。さまざまなサービス レベル、具体的には SLO が役立ちます。

SLO、SLA、SLI についてお聞きになったことがあるかもしれませんが、SLO とは正確には何でしょうか。SLO の意味や、カスタマーに可能な限り最高のサービスを提供するために SLO がどのように役立つかをご覧ください。

SLO とは?

SLO (サービスレベル目標) とは、提供するサービスがカスタマーの期待に応えられるようにするために設定する社内目標です。これらのカスタマーの期待が、あなたとカスタマーとの間の契約である SLA (サービス レベル アグリーメント) に概説されています。

SLO は実際にはどのようなものなのか、疑問に思われるかもしれません。例として、ストリーミング サービスを使用してみましょう。Web サイトを通じて動画ストリーミング サービスを提供する場合、SLA には 99.9% のアップタイムを含めることができます。つまり、ストリーミング サービスが停止するのは、1 か月あたり約 43.2 分間のみということです。

SLO は、カスタマーとの約束を反映させた社内ゴールを設定できるようにすることで、ここで重要な役割を果たします。SLO があれば、チームは問題に対する説明責任を果たし、カスタマー エクスペリエンスに影響が及ぶ前に問題を特定して解決できます。

SLO の構成要素

SLO には、メトリック目標時間枠という 3 つの主要な要素があります。メトリックはダウンタイムや待機時間などの測定可能な数値ですが、目標は達成しようとしている具体的な数値 (たとえば 99.9% のダウンタイム) です。時間枠には、メトリックの測定にかかる時間が 1 か月から 1 年の範囲で示されます。

特定の期間で追跡している目標やメトリックがあれば、パフォーマンスを具体的に測定できます。こうすることで、インシデント対応プロセスが加速し、カスタマーに影響を及ぼす前に潜在的なサービスの問題を解決できるようになります。

SLO、SLA、SLI の比較

SLA の課題

SLO、SLA、SLI はすべて異なりますが、密接に結びついています。このプロセスは、あなたとカスタマーが合意した SLA から始まります。たとえば、カスタマー サポートの問い合わせに 24 時間以内に回答するよう約束するとします。

この約束を果たすには、SLO を「特定の月の 90% の時間など、特定の期間でカスタマー サポートへの問い合わせに 24 時間以内に対応する」と定義します。

この例では、SLI の目標はカスタマー サポートの所要時間です。

SLO (サービス レベル目標)

SLO (サービスレベル目標) では、一定の期間における特定のメトリックの目標値を定義します。SLO の実例として、30 日間での 99.99% のアップタイムを挙げます。結果として、1 か月間にサービスで発生したダウンタイムを測定し、4.32 分を下回るようにする必要があります。

サービス レベル アグリーメント (SLA)

SLA (サービス レベル アグリーメント) とは、アップタイム、所要時間、特定の責任などの測定可能なメトリックに関する、プロバイダーとクライアントの間の契約です。

これらの契約は通常、企業の法務チームや事業開発チームによって作成され、カスタマーに対する正式な約束とその約束を守れなかった場合の結果を表します。通常、この結果には、違約金、サービス クレジット、ライセンス延長が含まれます。

SLI は、SLO で目標とするメトリックであり、パフォーマンスを追跡するために設定して測定する社内目標です。これらの SLO は、SLA を満たすために作成します。SLA とは、自社のサービスとそれを利用するカスタマーとの間で締結した契約です。

Jira Service Management では、SLA をすばやく作成でき、それらの契約に基づいて社内目標を設定できます。

SLI (サービス レベル指標)

SLI (サービス レベル指標) は SLO への実際のコンプライアンスを測定します。たとえば、SLA で 99.95% のアップタイムを保証している場合、SLO にも同じ目標を反映します。次に、SLI はアップタイムの実測です。99.9% である場合も 99.95% である場合もあります。SLA のコンプライアンスを維持するには、SLI がその文書で説明されている約束を満たすか、それを超える必要があります。

エラー予算

エラー予算は SLO において非常に重要です。その理由として、サービスを常に利用できる状態にすることだけに注力できないためです。アップタイムは重要ですが、製品を革新して更新する時間を確保する必要があります。エラー予算では、エラーの余地がどれほどあるかが示されるため、実験・革新をどれほど行えるかを把握できます。

SLO が 30 日間で 99.99% のアップタイムである場合、その 30 日間で許容されるダウンタイムは約 4 分間です。これにより、アジャイル チームはサービス契約に妥協せずに革新できるようになります。

SLO の仕組み

SLO の仕組みをより明確に理解するために、SLO の簡単な例を見てみましょう。

まず、追跡する主要なメトリックを特定します。アップタイムは一般的に最も重要なメトリックの 1 つですが、インシデント管理時間、正確さ、スループットなどのメトリックも使用できます。この例では、ダウンタイムを主要なメトリックとして使用します。

SLA で 99.9% のアップタイムを保証する場合、SLO にもその旨を反映させる必要があります。30 日間で 99.9% のアップタイムを目指すということは、1 か月間のダウンタイムは 43.2 分間に制限されます。アップタイムの監視サービスを利用して、当月中のアップタイムとダウンタイムを追跡できます。

月末には、SLO を達成したか、達成できなかったかを判断できます。SLO を達成できなかった場合、問題の原因を調査して修正することが不可欠です。エラー予算も影響を受けますが、その影響はインシデント重大度レベルによって異なります。

SLO が重要である理由

SLO は、カスタマーに最高のサービスを提供するための鍵です。SLO は、カスタマー エクスペリエンスの向上だけでなく、パフォーマンスの向上、コラボレーションの強化、計画の簡素化にもつながります。

チームがゴールに向かって連携する

カスタマーに最高のサービスを提供するには、チームワークが不可欠です。SLO に明確な期待値を設定すると、製品、エンジニアリング、ビジネスの各チームは注力する目標を共有できます。全員が協力して達成できるような共通のベンチマークがあれば、チームは団結して、カスタマーにより良いサービスを提供するという単一のゴールに向けて取り組むことができます。

製品とカスタマー エクスペリエンスを向上させる

製品やサービスを提供する際には、カスタマー エクスペリエンスが重要です。革新的な企業は、ストリーミング サービスのダウンタイムを最小限に抑える場合でも、インシデント通知や所要時間を改善する場合でも、SLO を利用してカスタマーにより良い製品やサービスを提供しています。SLO があれば、カスタマーに影響が及ぶ前にサービスの問題を特定するのにも役立つため、ここぞという時に問題を修正できます。

自動化を増やす

自動化は、ITSM (IT サービス管理) における最大のトレンドの 1 つです。企業の時間と費用を節約すると同時に、より良いカスタマー エクスペリエンスも提供します。SLO は自動監視やアラートをサポートするため、アップタイムや他の重要なメトリックを常に追跡できます。

現在のビジネスの世界での競争を勝ち抜くには、自動化が不可欠です。繰り返しタスクを自動化して、手作業の必要性を減らすと、時間と費用を節約すると同時に人的ミスのリスクを最小限に抑えることができます。

ダウンタイムを削減する

ダウンタイムはビジネスにとって悪影響を及ぼすだけでなく、マイナスのカスタマー エクスペリエンスを生み出し、カスタマーが競合他社に乗り換えてしまう可能性もあります。SLO では、シンプルで具体的なメトリックで信頼性を測定できるため、ダウンタイムを監視し、その原因となる問題を修正できます。エラー予算により、チームがどの程度のリスクを取ることができるかを明確にして、イノベーションと信頼性のバランスを取ることができます。

SLO のベスト プラクティス

SLO は有益ですが、次の簡単なベスト プラクティスに従うと、DevOps を簡素化し、SLO のメリットを最大化できます。ヒントをいくつかご紹介します。

  • SLA をサポートする: SLO は SLA をサポートする必要があります。そうすれば、ダウンタイムなどのメトリックを追跡して最適化し、カスタマーとのサービス契約を確実に満たすことができます。
  • シンプルに保つ: 多くの SLO を定義するのは良い考えのように思えますが、シンプルに保ち、重要なメトリックに注力するほうが良いでしょう。
  • 適応させる: SLO は確定されているものではありません。カスタマーの変化するニーズに合わせて、必要に応じて調整しましょう。

Jira Service Management で SLO を管理する

SLO の使用方法がわかっていれば強力なリソースになります。SLA に沿った SLO を作成すれば、最高のサービスとカスタマー エクスペリエンスを提供できるようになります。ダウンタイムを最小限に抑え、所要時間を短縮すると、サービス全体が向上します。

Jira Service Management では、ソフトウェア開発チームと IT チームの指針となる SLA や SLO を簡単に作成できます。また、Jira ではチームのリアルタイムなコラボレーションを可能にすることで、生産性とコラボレーションを強化します。Jira Service Management が SLO の開始にどのように役立つかをご覧ください。

次の記事
Error budget