
データガバナンス設計
境界と役割を先に決める:ドメインとRACIの明確化
ガバナンスは「何を誰が守るのか」を曖昧にしたままでは機能しません。最初に決めるのは境界です。分析で扱うデータを、売上・顧客・在庫・施策などのドメインに分け、各ドメインごとに「データプロダクト」を定義します。プロダクトにはオーナー(意思決定責任)、スチュワード(日々の定義・品質管理)、カストディアン(技術的保護)、コンシューマ(利用者)を置き、RACIで責務を明文化します。
加えて、「標準用語集(ビジネスグロッサリー)」と「禁止語・曖昧語リスト」を用意します。たとえば「顧客」は会員IDに限定するのか、ゲスト購入を含めるのか。ここが曖昧だと部門間で数が合いません。レビューは月次、変更は事前通知2週間、重大な用語変更は四半期ごとといったリズムを決め、議決体(Data Governance Board)で承認します。
権限モデルの原則
アクセスは最小権限・属性ベース(ABAC)を基本にします。部門、職務、ロケーション、個人情報取扱可否などを属性にし、タグ(Public/Internal/Confidential/Restricted)でデータを分類。タグ×属性でアクセス可否を決め、個人情報は動的マスキング(集計時は許可、明細は不可)のルールにします。申請フローはチケット化して監査ログを残します。
ポリシーを設計図に落とす:データ契約と品質SLA
抽象的な「守る」から具体的な「こう変えたら誰が困る」へ。生産側と消費側の合意として「データ契約(Data Contract)」を作ります。含めるべき項目は次の通りです。
- スキーマと意味:カラム名・型・必須/任意・ビジネス定義・単位・PIIタグ
- 品質SLA:鮮度(例:最大遅延15分)、完全性(95%以上)、妥当性ルール(メール形式、ID重複禁止など)
- 変更管理:追加はマイナー、削除はメジャー、非推奨期間90日、通知チャネル、リリースカレンダー
- エラーバジェットと優先度:SLA違反が月合計60分を超えたら改修を最優先
- 監査・保持:アクセスログ365日保持、明細は24カ月で匿名化、同意撤回時の削除手順
契約は「ポリシー・アズ・コード」に落とし、Gitで管理、CIでスキーマドリフトとテストを自動検知します。ドラフトはChatGPTやClaudeで雛形を作り、表現ゆらぎを減らすと速いです。SQLのテストケースやコメント補完はCopilotで加速できます。PII候補の自動マーキングやカラム説明文の初稿はGeminiで機械生成し、スチュワードが最終確認する運用が現実的です。
インシデント対応の流れ
SLA違反や漏えい疑義が起きたら、重大度(顧客影響・規模・規制影響)でS0〜S3に分類し、初動(隔離・ロールバック)・広報・事後レビュー(再発防止)を48時間内に実施。障害報告テンプレートは定形化し、ナレッジは検索可能に貯めます。
実装の現実解:カタログ、リネージ、制御の“三種の神器”
運用で効くのは、誰が見ても同じ答えに辿り着ける仕掛けです。最低限そろえたい三つを具体化します。
データカタログと用語集
全テーブルに説明・責任者・更新頻度・タグ・サンプルクエリを紐づけます。PR時に説明の更新を必須化し、LLMで差分要約を生成するとレビュア負担が大幅に減ります。利用者はまずカタログを検索し、承認済みデータプロダクトから使う文化をつくります。
リネージ(系譜)と影響分析
ETL/ELTの依存関係を可視化し、上流変更がどのダッシュボード・機械学習特徴量に波及するかを自動通知。メジャーブレークは消費側の合意がない限りリリース不可とします。影響分析は計画停止の判断材料に直結します。
アクセス制御と監査
タグ駆動のアクセス制御、列・行レベルのフィルタ、動的マスキングを組み合わせます。外部持ち出しは「目的・期間・範囲」を明記した例外申請のみ許可。抽出結果には自動で透かしメタデータ(作成者・時刻・参照元)を付与し、流出時の追跡性を確保します。クエリログからPIIへの過剰アクセスを検知するルールも有効です。
身近な企業活用例:D2Cアパレルの失敗と反転
マーケがCSVを手作業で統合し、在庫は別システム。ある日、受注テーブルの「customer_id」が整数から文字列に変わり、週次レポートが全滅。さらに、代理店へ顧客明細をメール送付していた事実が監査で発覚。欠品は減らない、キャンペーンの効果測定もブレる、という状況でした。
対策として、データを「売上・在庫・顧客・施策」の4ドメインに再編。各ドメインにオーナーとスチュワードを任命し、データ契約をGitで管理。スキーマ変更はPRで申請、CIで互換性チェックとテストを自動実行。品質SLAは「売上明細の鮮度15分以内、完全性98%」。違反時はダッシュボードに赤帯で表示、原因リンクを即時提示。PII列はタグ付けし、明細はマスキング、集計は利用可に変更。外部提供は集計済み・期限付きリンクのみ許可。
運用では、ChatGPTで用語集の初稿を作り、Claudeで表現の一貫性を確認。Geminiでカラム名からPII疑いをスキャンし、スチュワードが承認。CopilotでSQLの検証クエリとドキュメントを補完。3カ月後、ダッシュボードの復旧平均時間は8時間から40分へ、在庫鮮度はT+1日から最長15分遅延に短縮。外部持ち出しの例外申請は月7件から1件へ、メール添付はゼロ化。販促のターゲティング精度が上がり、同予算でCVRが9%向上しました。「同じ問いに同じ答えが返る」状態が社員の共通前提になり、意思決定のスピードが目に見えて上がりました。
ポイントは、ツール導入より「境界・契約・SLA・ログ」の土台を先に決め、変更のたびに自動で検証される仕組みに落としたことです。ガバナンスはブレーキではなく、壊れないアクセルになります。
データ解析プラットフォーム事業では、これらの設計をプロダクト要件として最初から織り込みます。カタログ、リネージ、タグ駆動のアクセス、ポリシー・アズ・コード、そして品質SLAの監視までが一体となった基盤は、分析の再現性と信頼を担保し、事業の意思決定を静かに底上げします。