クラウドコスト監視の実践

2026.02.20
クラウドコスト監視の実践

クラウドコスト監視の実践

監視対象を“お金の単位”で定義する

クラウド請求は「総額」だけ見ても手遅れになりがちです。観点を利用実態に寄せ、意思決定できるKPIを先に決めます。おすすめはユニットエコノミクスの分解です。

最小KPIセット

  • 1,000リクエストあたりコスト:当月クラウド費用 ÷ APIリクエスト数 × 1,000
  • 1注文/1ユーザーあたりコスト:売上の変動と一緒に追うと投資対効果が見えます
  • AI推論の1回あたりコスト/1トークンあたりコスト:モデル別(例:ChatGPT, Claude, Gemini)で分ける
  • 非本番の毎時バーンレート:停止し忘れの検知に有効

これに加え、月次の「固定ベースライン費用」と「変動費用(トラフィック/ジョブ連動)」を分解し、固定の60〜80%は予約・割引(RI/SP)で固め、残りはスケール戦略で最適化する前提を置きます。

仕組みで防ぐ:タグ、予算、アラートを標準化

タグ設計の5原則

  • env(prod/stg/dev)、system、owner、cost_center、data_classの5キーは必須
  • IaCに組み込み、未タグは作れない(ポリシーで弾く)
  • タグ値は辞書管理。自由記述は禁止
  • タグは請求と監視ダッシュボードの両方で集計できるよう統一
  • 終了期限タグ(ttl)で実験系を自動クリーン

予算とアラート閾値

  • 環境別に月次予算を設定(prod:stg:dev=7:2:1が目安)
  • 50/80/100/120%で通知。80%到達時にオーナー承認フロー、120%で非本番を自動スケールダウン
  • 日次異常検知:前日比+30%または7日移動平均+3σでSlack/Teamsに即時通知
  • AIジョブは金額ガードレール(ジョブ上限5,000円/日)。越えたら停止+要再申請

アカウント/プロジェクトをprodと隔離し、権限も分離。請求データは日次でデータウェアハウスに取り込み、ダッシュボードは「今月累計」「当日バーン」「予測」「上位コスト源(タグ/サービス)」の4枚だけに絞ると現場が回ります。開発スピードが上がるほどCopilotやChatGPTでの実験が増えますが、その分「作った分だけ課金」が増えるため、予算と停止仕組みは必須です。

ムダの温床と即効テクニック

  • 過大プロビジョニング:CPU50%未満が7日続いたらサイズダウン。KubernetesはVPAとHPA併用、ノードはSpotをステートレスに限定
  • 非本番の点けっぱなし:平日8–20時以外は自動停止。リリース週だけ例外タグで除外
  • 孤立リソース掃除:未アタッチEBS/スナップショット90日超は通知→削除、S3はライフサイクルでIA/Glacierへ
  • ネットワーク課金:NAT集中は高コスト。VPCエンドポイント活用、CDNのTTL・キャッシュキー最適化
  • 予約/割引の最適化:過去90日の安定消費の50–70%を1年コミット(前払い少なめ)。四半期ごとに見直し
  • AI推論の選択:本番は品質重視モデル、バッチ/下書きは軽量(例:Claude HaikuやGemini Flash)。トークン制限とキャッシュを併用
  • クエリ課金のガード:BigQuery/Athenaはスキャン上限とパーティション、物理化ビューで暴走防止

やることは多く見えますが、最初の30日は「タグ強制」「予算と日次異常通知」「非本番スケジュール停止」の3点に絞ると費用は即下がります。

身近な企業の失敗と改善:中堅ECサイトのケース

AWS中心にGCPを一部併用。検索体験向上でChatGPTとClaudeを使った要約・レコメンドを導入。開発がCopilotで加速し、Kubernetesの一時クラスターやGPUノードが乱立。タグなし・予算なしの状態で月額300万円→420万円に急増、しかも売上は横ばいでした。

対策は以下の順で実施。

  1. タグ強制とアカウント分離。未タグはCIでブロック
  2. 部署別予算と日次アラート、AIジョブは5,000円/日で自動停止
  3. 非本番の自動停止、EBS/スナップショット整理、NAT最適化
  4. 安定負荷の60%をSavings Plan化。推論はGemini Flash/Claude Haikuへ一部置換、結果をキャッシュ

2カ月で総額は28%削減(420→302万円)。1注文あたりコストは94円→66円に改善、APIレイテンシとSLOは維持。役員会では「予算対実績」「変動費内訳トップ10」「次月予測」を月次報告に定着しました。以後は機能開発の意思決定で「コスト/注文」を必ず提示し、費用対効果を早期に潰し込めるようになりました。

コスト監視は性能や可用性の監視と同じ“運用の地層”に組み込むと、現場の迷いが減ります。サーバ監視運用事業の文脈でも、メトリクス収集・アラート運用・自動化の設計原則は共通です。違いは見る指標が「リソース」だけでなく「お金」に伸びること。だからこそ運用の仕立て直しが効きます。