
SLA設計とKPI策定の実践
SLAを“測れる単位”に分解する
SLI/SLO/SLAを現場の観測点に接続する
SLAは約束、SLOは目標、SLIは計測です。抽象を避け、ユーザー体感に直結するSLIから決めます。例として「Web/API可用性」を「成功リクエスト率(HTTP2xxかつp95遅延<300ms)」で定義し、30日移動窓で集計します。SLOは99.9%、つまり月に約43分のエラーバジェット。SLAはSLOに契約条件(除外・補償・通知義務)を付与したものとして位置づけます。
インシデント重大度はユーザー影響で切り分けます。P1=全顧客の決済不能、P2=一部地域で検索遅延、P3=管理画面の軽微不具合、といった形で、各Pに応答・復旧の目標時間を結びます。ここまで決めると、何をいつ測ればよいかが明確になります。
監視設計の要点(窓と粒度、観測の多層化)
ブラックボックス監視(外形)で体感を、ホワイトボックス監視(メトリクス/ログ/トレース)で原因切り分けを担保します。合成監視は複数リージョン・ISPから、1〜5分間隔で実施。SLI集計の時間窓はSLOと一致させ、再試行補正やノイズを考慮した集計(ヒステリシス)を導入します。計画メンテはSLA除外にする場合、少なくとも7日前告知・月間総量上限を明文化します。観測漏れ防止にはサービスカタログとダッシュボードの紐づけ(機能→SLI→クエリ→アラート)を維持します。
KPIはオペレーションの手触りで決める
必須KPIと推奨しきい値
- MTTA(一次応答時間):P1は10分未満、P2は30分未満
- MTTR(平均復旧時間):P1は60分未満(ロールバック前提)、P2は4時間未満
- 検知カバレッジ:顧客影響事象の95%以上を自動検知
- 誤検知率(ページ対象アラート):5%未満
- 手順書鮮度:主要ランブックの更新90日以内率90%以上
- 変更失敗率(DORA):15%未満、失敗時の平均ロールバック10分以内
これらはSLOと連動させます。月前半でエラーバジェットを50%超消費したらデプロイを凍結し、原因を「負荷/依存/変更」の三軸でレビューします。ページングは顧客影響のみ、資源逼迫やバックグラウンド失敗はチケット化し、相関とサプレッションでアラート疲労を避けます。
クエリと運用の具体
SLIクエリは「good/total」の分数で定義し、看板メトリクスは1画面に収めます。PromQLやLogQLはテンプレ化し、レビューを週次で実施。ポストモーテム要約はGeminiやClaudeで下書き、手順書の叩き台はChatGPTで作成、SLOクエリの雛形はCopilotで整備といった活用は、速度を上げつつヒューマンレビューを前提にすれば有効です。
契約に落とす:SLAの骨子と短文例
顧客視点でブレない条項
- 対象範囲:公開APIと顧客向けWeb。管理画面は対象外(別SLO)。
- 可用性定義:成功リクエスト率=HTTP2xxかつp95遅延<300ms。30日移動窓で算出。
- 除外:計画メンテ(7日前告知・月4時間上限)、顧客起因、広域クラウド障害(同時多AZ冗長化を前提に軽減努力)。
- サポート時間:24/7/365。P1応答10分、P2応答30分。P1は1時間ごとに進捗共有。
- エスカレーション:SRE→当番EM→役員。連絡経路は電話/Slack/メールの順に並列。
- サービスクレジット(月次):SLO未達かつSLA違反時、99.9%未満5%、99.5%未満10%、99.0%未満20%。
- レポート:月次でSLO達成、エラーバジェット消費、主要インシデント、改善計画を提出。
文言は短く数式ベースに寄せ、測定主体・データ保持期間・異議申立期限(例:30日)まで記すと紛争を減らせます。
身近な企業活用例:中堅ECの失敗と改善
内製は開発中心でSRE1名、監視は外部委託。初回契約で「99.99%」を掲げたものの、外形監視が単一リージョンで5分間隔、SLIは「HTTP200率のみ」。地域ISP障害を自社障害と誤検知し、夜間ページが乱発。KPIも未定義で、P1のMTTRは140分、初回応答も平均25分でした。
改善では、SLIを「2xxかつp95<300ms」に変更し、3リージョン合成・1分間隔へ。SLOを99.9%に見直し、エラーバジェット方針を導入。P1はSLO違反予兆(残余バジェット20%未満)でページ、閾値ベースはサプレッション。手順書の初稿をChatGPTで作り、レビュー後に運用、ポストモーテム要約をGeminiで下書き、原因分類のドリルダウン案をClaudeで比較。アラートクエリの最適化はCopilotの提案を採用しつつ検証しました。
2カ月で、MTTAは25→7分、MTTRは140→55分、誤検知率は30%→6%、初回応答SLA遵守率は98%に。売上直結のカート離脱も週次で可視化され、SLOレビュー会でプロダクト改善に接続できるようになりました。
SLAとKPIを「測れる定義」と「運用の手触り」で結び直すことが、監視の信号からビジネスの意思決定までを一直線にします。サーバ監視運用事業は、この分解と実装(観測→警告→復旧→学習)を回し切る設計力が価値の源泉です。