
BCP視点で見る動画運用体制
まず決めるべき指標—RTO/RPOと優先度の言語化
動画プラットフォームのBCPは「何が、どれだけの時間、どの粒度で止まってよいか」を決めるところから始まります。復旧目標時間(RTO)と復旧目標時点(RPO)を、機能ごとに明文化します。例えば、ライブ配信のRTOは15分、オンデマンド視聴は4時間、ユーザーコメントは翌日でも可、といった実務的な線引きです。RPOはエンコードキューや課金処理の再実行ポリシーに直結します。
機能はTierで分けると意思決定が早くなります。
- Tier0:支払い・認証・視聴(停止が即収益損失や信頼低下)
- Tier1:アップロード・エンコード・DRMライセンス発行
- Tier2:コメント・レコメンド・高度な検索
優先度は縮退運転の形に落とし込みます。「サムネ生成が落ちたら既定画像で代替」「多言語字幕は後追い提供」「4Kが不可なら1080pに自動ダウングレード」といった具合に、ユーザー体験を守りつつ最小限の品質で継続する設計を決めておきます。
止めないための設計—冗長化、マルチベンダー、縮退の三位一体
BCPは机上のルールだけでは機能しません。実装に落とし、定期的に切り替えが動くかを検証します。特に効くのは次のパターンです。
- ストレージ二重化:アップロードをプライマリとセカンダリのオブジェクトストレージに同時書き込み。メタデータはイベント駆動で冪等更新。
- キュー中心のエンコード:失敗時にリトライ可能なキューにジョブを残し、ワーカーはスケールアウト。キュー視点でRPOを管理。
- CDN切り替え:CNAME経由で2社構成、DNSのTTL短縮と監視閾値連動のフェイルオーバー。配布パスは相対参照に固定。
- DRM/鍵管理:ライセンスサーバはリージョン二重化。キーはKMSでローテーション、バックアップ鍵は隔離保管。
- 認証の冗長:SSO障害時は短期トークン発行のバックドアを準備。管理画面はゼロトラスト前提で条件付きアクセス。
- オフラインの代替:社内研修や教育用途は一時ライセンス付きの一括配布パッケージを用意(有効期限と透かし入り)。
テレワークや災害時の運用継続も設計に含めます。管理系はVPN前提をやめ、端末認証と最小権限でアクセス可能に。DNS・CDN・監視は別系統のネットワークからも操作できるよう、緊急時のモバイル回線経路を用意しておくと復旧が早まります。コストは「ホット(常時待機)」「ウォーム(即時起動可能)」「コールド(手動復旧)」の層で配分し、TierとRTOに合わせて最適化します。
人と手順のBCP—鍵人材の分散と即席で回せる運用
技術が冗長でも、運用が単線だと止まります。キーパーソンリスクを避けるため、1機能に最低2名、重大変更は4眼レビューという「1-2-4」原則を導入します。権限は機能ごとに分離し、監査証跡を必ず残します。
復旧は手順書の質で決まります。障害シナリオごとに「誰が・どの順番で・何を確認するか」を1〜2ページのランブックに落とし、リンクやコマンドはコピペ可能に。アラート名から該当ランブックに飛ぶ仕組みを用意します。月1回のゲームデイ(意図的な障害注入)でRTOを実測し、手順を更新します。
自動化とAIの使いどころ
警報のノイズを下げ、初動を早めるためにAIを組み込みます。ChatGPTやClaudeでアラートログの要約と一次切り分けの提案を自動生成、Geminiでダッシュボードの異常傾向を文章化、Copilotでインフラ構成変更の差分レビューを強化します。緊急告知文やFAQの雛形もAIで下書きし、法務・広報のレビューだけで出せる状態にしておくと、ユーザー対応の遅延を最小化できます。
身近な企業活用例—教育系サブスクの停止48時間からの脱出
月間視聴が数十万規模の教育系サブスク(社員80名)。夏季の広域停電でホスティング拠点が停止し、アップロードAPIとDRMライセンス発行が同時にダウン。DNSのTTLが長く、CDN切替も未整備。エンコードは外部SaaS一本で、失敗ジョブの再投入が手作業。RTO/RPOの定義もなく、社内連絡はチャットが流れて迷子に。結果、新規講座の公開が48時間遅延し、返金・解約が発生しました。
改善では、まず優先度を明文化。視聴と支払いをTier0、アップロードとDRMをTier1、コメント等をTier2と定義し、縮退運転の姿を決定。ストレージは二重書き込み、エンコードは自社ワーカー+外部SaaSの二段構えに変更。CDNは2社化してCNAMEで切替、DNS TTLを短縮。DRMサーバはリージョン分散、鍵はKMSで二系統に保全。
運用面では、1〜2ページのランブックを15本整備。アラートから自動で関連手順にジャンプし、役割分担とエスカレーションの連絡先を固定。月1ゲームデイを実施し、平日日中と深夜の両時間帯でRTOを測定。初回は35分だったライブ配信の復旧が、3回目で15分に短縮されました。
ユーザー対応は、ChatGPTで告知文の叩き台を作成し、法務・広報が5分で修正。Claudeで英語版も同時展開。CopilotがIaCの切替差分をレビューし、ヒューマンエラーを抑制。Geminiが監視データの傾向を要約し、事後報告の作成時間を半減。年間コストは約8%増でしたが、障害時の機会損失は顕著に減少しました。
動画は「作る・守る・届ける」を同じ速度で回せる体制が強さになります。動画プラットフォーム事業においては、BCPを仕様・実装・運用・人材育成にまで埋め込み、AIを補助線にした継続可能な運用体制を整えることが、視聴体験と事業の両方を守る最短距離です。