インフラ標準化と共通基盤構築

2026.03.07
インフラ標準化と共通基盤構築

インフラ標準化と共通基盤構築

まず決めるべき“標準”の単位を固定する

標準化は「全部同じにする」ことではなく、現場が迷わないガードレールを用意することです。最初に決めるのは、禁止・推奨・任意の3分類と、例外申請の窓口と期限。これだけで勝手仕様が減り、後の共通基盤が生きてきます。レイヤーはインフラ(ネットワーク/コンピュート/ストレージ)、プラットフォーム(OS/ミドルウェア/ランタイム)、運用(監視/ログ/バックアップ/セキュリティ)の3つに分け、各レイヤーで「選べるカタログ」を用意します。

  • 対応リージョンと環境(dev/stg/prod)の分離方針
  • OS/ミドルウェアのサポートバージョンとEoL運用
  • ネットワーク命名・IP割り当て・DNS/TLSポリシー
  • タグ命名規則(costcenter, owner, system, data-class)
  • IaC必須化(レビュー基準、例外は期間限定)
  • 監視メトリクス/ログ/トレースの最小セット

「標準外」をゼロにするより、例外の見える化と有効期限を運用に組み込む方が、速度と安全性の両立につながります。例外はチケット化し、期日・代替策・リスクを明記して棚卸しします。

共通基盤の最小構成と設計判断

共通基盤は豪華である必要はありません。最小構成でよいので、壊れにくい骨格を用意します。推奨は以下の8点です。

  1. アカウント/プロジェクト分離(prodは単独、横断はshared)
  2. ID連携と権限ロール(人/機械/CI用を分離、短命トークン)
  3. ネットワークのセグメンテーション(VPC、共有サービス、明示ルート)
  4. イメージ/テンプレートのカタログ(ゴールデンAMI/コンテナベース)
  5. CI/CDの標準パイプライン(スキャン、テスト、承認、デプロイ段階)
  6. シークレット管理(自動ローテーション、アクセス監査)
  7. 可観測性の集約(メトリクス/ログ/トレースと相関)
  8. コストと構成のタグ強制(未タグはデプロイ不可)

判断のコツは「SLOから逆算する」ことです。共通基盤が提供するSLO(例:99.9%)を先に定義し、要件がそれを超えるワークロードは隔離(専用アカウント/単独AZ/独自ルート)します。マルチクラウドは「冗長化」ではなく「調達オプション」と割り切り、まずは単一クラウドで運用の成熟度を上げます。容量は「現在最大×1.5+予測成長」で四半期レビュー、費用はタグ別に週次レポートを出すだけでも無駄撃ちが減ります。

IaCとバージョニングの実装パターン

モジュールは少数精鋭で、入力を厳格に。バージョンは必ず固定し、breaking changeはメジャーに限定します。週次でドリフト検知を回し、差分はPRに自動起票。Policy as Codeでタグ・公開ポート・暗号化の違反をビルド時に止めます。Copilotでモジュールのユニットテスト雛形を生成し、ChatGPTやClaudeにポリシー文言の抜け漏れチェックを促すと、レビューの見落としが減ります。生成AIは提案まで、本番適用はステージングでの実証を必須にします。

監視運用を“共通”にする具体

監視は「誰が見ても同じ挙動」を目指します。SLIテンプレートを4種(可用性、レイテンシ、エラー率、飽和)用意し、サービスはこれに沿ってSLOを選ぶだけにします。メトリクス名はteam.service.resource.metricの順で統一、単位はSIに揃えます。アラートは多窓・多バーンレート(5分・1時間の両方)で運用し、fatigueを避けます。すべてのアラートにはRunbookとオーナーを紐づけ、期限切れRunbookはデプロイ時に警告させます。

  • ダッシュボードは「経営」「SRE」「開発」の3役割でビュー分離
  • オンコールは週替わり+シャドウ体制、引き継ぎテンプレート固定
  • インシデントはタイムライン自動収集、24時間以内にレビュー
  • ログ保持はホット7日・ウォーム30日・アーカイブ1年を基準

アラートの要約やポストモーテムの初稿はGeminiやChatGPTに作らせ、SREが事実確認と因果の補強を行うと、負担を抑えつつ質を保てます。運用メトリクス(MTTR、アラート/人、SLO違反回数)は四半期のKPIに入れ、改善をプロダクトバックログ化します。

身近な企業活用例:家具ECの失敗と反撃

成長に伴いVMが20台→80台に増えた頃から障害が連発。OSは3系統、タグは人によってバラバラ、監視はチームごとに別ツール。ブラックフライデー直前の深夜、ログ基盤のディスク満杯でAPIが巻き添えダウン。原因特定に3時間、復旧後も再発不安で機能開発が止まりました。

対策として3カ月の標準化/共通基盤プロジェクトを実施。禁則/推奨/任意の3分類を定め、ゴールデンイメージとTerraformモジュールを5つに集約。ネットワークはshared VPC+prod隔離、CI/CDは脆弱性スキャンとPolicy as Codeを強制。監視はSLIテンプレート化し、主要ダッシュボードを統一。Runbookの初稿はClaude、テスト雛形はCopilotで作成し、SREが検証しました。結果として、リリースリードタイムは2週間→2日、MTTRは90分→25分、月間アラートは1200→300に減少。障害時はChatGPTがログの要約と影響範囲の候補を即時提示し、一次切り分けが10分短縮しました。最終的にBFセールはSLO未達ゼロで完走し、開発は新プロモ機能を予定通り投入できました。

標準化と共通基盤は、サーバ監視運用の品質を底上げする土台です。アラート設計、Runbook、自動化の粒度が揃うほど、オンコールは静かになり、改善が回り始めます。監視運用事業では、このガードレールを維持し続けること自体が価値になり、変化の速い現場でも“壊れにくい日常”を提供できます。