AIプロジェクト体制の作り方

2026.02.17
AIプロジェクト体制の作り方

AIプロジェクト体制の作り方

まず決めるのは「責任の置き場」

AI導入が迷走する最大の理由は、モデル精度よりも「誰が最終判断するか」が曖昧なことです。最初に体制を描き、意思決定の通り道を固定します。

最低限の役割

  • プロダクトオーナー(事業側):目的・KPIを握る。ユースケースの優先順位を決める。
  • テックリード/MLエンジニア:モデル選定、RAG/パイプライン設計、評価の責任者。
  • データオーナー/スチュワード:元データの品質・権限・マスキングを統括。
  • セキュリティ/法務:個人情報・著作権・ログ保全・第三者提供を審査。
  • 運用責任者:SLO、アラート、費用・利用監視(FinOps)を担う。

判断のルール化

RACIで「誰が決めるか」を明文化します。少なくとも次の判断基準を紙に落とします。

  • 出力可否基準:機密・個人情報・誤情報の取り扱いと人間の最終承認ポイント。
  • 評価合格ライン:正確性、禁則語、帰納バイアス、再現性(温度・プロンプト)を数値化。
  • データ持ち出し範囲:社外APIに送れる/送れない属性の一覧とマスキング手順。

月1のステアリング会議を設け、ユースケースの採否・撤退を決めます。ここで迷いを残さないことがスピードを生みます。

ユースケース選定とROIの測り方

スコアカードで序列化

  • 効果(削減工数×頻度×影響部門の広さ)
  • 実現性(データ入手性×業務標準化度×IT依存度)
  • リスク(法的・レピュテーション・運用負荷)

合計点の高い順に、4週間POC→8週間パイロット→本番の階段を上ります。撤退条件(例:再現精度80%未満なら中止)も先に決めます。

4週間POCの型

  • 週1ゴール:1.要件固め→2.最小UI/プロンプト→3.評価データ作成→4.意思決定
  • KPIは「作業時間」「一次回答率」「人手修正率」「1リクエスト当たりコスト」で十分
  • ベースラインは必ず計測(現行作業のストップウォッチ計測とサンプル50件)

モデル選定のコツ

  • 長文要約・指示の忠実さ:ChatGPTかClaudeが安定しやすい
  • ツール呼び出し/マルチモーダル:Geminiの関数呼び出しや画像理解が便利
  • 開発生産性:実装面はCopilotを標準化し、レビューに時間を配分

「社外APIに出せないデータ」はRAGで社内に留め、プロンプト側で個人情報の入力禁止をUIで担保します。DPA/データ処理同意は法務のチェックリストで通行手形を作っておくと早いです。

実装チームと運用の実際

小さく強い編成と成果物

  • チーム構成:PO1、テックリード1、アプリ/バックエンド1〜2、データ1、評価/QA1、セキュリティ0.5
  • 必須成果物:プロンプト仕様(入出力例と禁則)、評価データ100問、ガードレール条件、運用Runbook
  • 観測とコスト:トレースID、トークン/呼び出し回数、ユーザー/部門タグで課金配賦

UIには「良い/悪い」フィードバックと再学習用の収集同意を付けます。異常検知(桁違いのトークン、NGワード、同一ユーザーの連投)で自動遮断。秘密情報はKMSで管理し、プロンプトはバージョン管理します。

評価とガードレール

  • 自動評価:正解集合に対する類似度+ルーブリック判定(LLM-as-a-judge)
  • 人手評価:週次で10件/人×3人の二重チェック
  • ガードレール:拒否応答、出典必須、社外持ち出しワードのマスク

この仕組みがそのまま社内「生成AIプラットフォーム」の核になります。モデル横断でプロンプト・評価・権限・監査を共有できる形にしておくと、次の案件の立ち上げが一気に速くなります。

身近な企業活用例:280人の住宅設備商社の再出発

都内の住宅設備商社(従業員280人、営業中心)が、営業提案書生成ボットを急造。SlackからChatGPT APIを叩き、3週間で試験公開しましたが、誤情報の混入と原価表の貼り付け未遂が発生。トークン消費も膨らみ、経営判断で停止に。

再開時はステアリング会議を設置し、データオーナーを指名。社内の製品仕様・価格はRAGで参照し、外部送信はマスク。長文の規格比較はClaude、キャッチコピー生成はChatGPT、社内FAQ検索はGeminiと役割を分担。Copilotで実装速度を上げ、評価データ50問を営業と共に作成しました。

UIに「出典必須・人間承認」を組み込み、禁則語/機密語のガードレールを導入。コストは部門タグで可視化し、週次でトップ5ユースケースをレビュー。4週間で再リリースし、提案作成時間は1.5時間→25分、誤情報指摘は80%減、月額コストは40%削減。失敗の原因は「責任の置き場不在」と「評価不在」だったと総括し、以後は全案件が同じ型で回るようになりました。

ポイントは、モデルの巧拙より「誰が何を決め、どの基準で合否を出すか」を体制として固定したことです。結果として、案件ごとの差異はプロンプトとデータ接続だけになり、立ち上げが週単位になりました。

AIプロジェクトの体制づくりは、突き詰めると「社内生成AIプラットフォーム」の設計と運営です。モデルは流動的でも、評価・権限・監査・コスト配賦・再利用可能なプロンプト群が安定していれば、事業は積み上がります。生成AIプラットフォーム事業に取り組む立場でも同じ原理が働き、組織と顧客の双方でスケールする基盤ができます。