プロンプト設計の実践テクニック

2026.02.14
プロンプト設計の実践テクニック

プロンプト設計の実践テクニック

同じお題でも、ChatGPTとClaude、Geminiで微妙に出力が揺れる。チューニングしないまま現場投入すると、精度や再現性の差がそのまま業務品質に跳ね返ります。鍵は「人に依存しないプロンプト設計」。仕様化と評価のしくみまで含めて組み立てると、運用が安定します。

目的・制約・評価軸を先に固定する

良いプロンプトは、仕様書の三点セットで始まります。目的(何を・誰のために)、制約(使ってよい情報・禁止事項・表現トーン)、評価軸(良し悪しの判定基準)です。まずは人が合意できる言葉で固定しましょう。

  • 目的: 「EC商品ページの説明文を作成。初心者にも伝わる、購入を後押しする」
  • 制約: 「事実は提供CSVと画像OCRの範囲のみ。誇張NG。語尾はです/ます。200〜230字」
  • 評価軸: 「事実誤認0件、重要属性(素材・サイズ・原産国)3要素すべて含む、読みやすさ8/10以上」

これをそのままプロンプト冒頭に置き、続けて入出力の枠を明示します。例:「入力: 製品CSVの行。出力: 見出し/本文/箇条書き3点のJSON。禁止: CSVにない機能の記載」。評価軸は別プロンプトで自動判定できる形容詞を避け、カウント可能な条件に落とすと運用しやすいです。

出力を安定させる書き方(R-T-C-F-E)

プロンプトを「役割(Role)- 仕事(Task)- 文脈(Context)- 形式(Format)- 例(Examples)」の順に並べると、モデル間でブレにくくなります。

例)Role: 「あなたはEC編集者」/ Task: 「CSV1行から説明文を生成」/ Context: 「事実はCSVのみ」/ Format: 「JSON: title, body, bullets」/ Examples: 「良い例1件・悪い例1件」。

形式はできるだけ機械可読に。JSONや箇条書き、見出し数の固定は有効です。「h3見出しを3つ」「箇条書きは最大5項目」など数量で制御すると、後工程が楽になります。また「思考過程の出力は不要。結論のみ」と明記し、説明が必要な場合は「根拠URLを3件」など外形で求めます。

分割と検証を前提にする

1つのプロンプトに全工程を詰め込むほど暴走しがちです。「計画→生成→検証→修正」を別プロンプトに分割し、検証は評価専用のプロンプトで行います。例:検証プロンプトに「本文から数値・固有名詞を抽出し、入力CSVと突合せ。差分があればフラグを立てる」を担わせ、修正プロンプトは差分だけを直す。RAGを使う場合も、取得→要約→生成を段階化し、各段の失敗率を観測できるようにします。

画像生成のプロンプトも同様で、Midjourneyでは「被写体/構図/ライティング/スタイル/禁止要素」を分けて記述し、–arなどのパラメータは最後に集約。ネガティブ要素(不要な背景やノイズ)は必ず明示します。

身近な企業活用例:生活雑貨ECの失敗と改善

商品追加が月200SKUに増え、説明文作成をChatGPTに任せたところ、素材の取り違えや過剰表現が多発。返品率が微増し、CS問合せも増える事態に。

失敗の原因は「指示が曖昧」と「検証不在」。改善では、次の三点を実施しました。

  • 仕様化: 目的/制約/評価軸を明文化。出力はJSONに固定し、title/body/bullets/attributes/citationsの5キーに統一
  • 分割: ①CSVと画像OCRから根拠候補を抽出(Geminiを使用)、②説明文を生成(Claudeで長文安定化)、③検証プロンプトでCSVと突合(ChatGPT)、④差分のみ自動修正
  • 評価とログ: 重要属性の欠落率、事実誤認率、編集所要時間を自動集計。週次でプロンプト改訂をバージョン管理

結果、1SKUあたりの編集時間は22分→9分に短縮、重要属性の欠落率は12%→1.8%、CSの「説明と実物が違う」問い合わせは18%減。数値で効果が見えるため、現場が継続的に改善を回せるようになりました。画像については、Midjourneyで「被写体中心・背景ボケ・質感強調・ネガティブに反射」を標準化し、撮影が難しい角度だけを生成で補完。トーンの統一感が上がりました。

プラットフォーム視点での運用テクニック

現場が楽になるのは、プロンプトの良し悪しよりも「運用の作り」によるところが大きいです。

  • テンプレート化と変数化: 役割/制約/形式をテンプレート化し、変数でブランド名やトーンを切替。モデルをChatGPT/Claude/Geminiで差し替えても同じ変数が流れる設計に
  • バージョン管理: 変更理由とメトリクスをセットで記録。A/Bテストで勝ったプロンプトだけを昇格
  • 評価パイプライン: 「事実整合」「網羅性」「スタイル統一」を自動判定する評価プロンプトを用意。人手レビューは閾値以下だけに集中
  • ガードレール: 禁止トピック、引用元必須、PIIマスクなどを前段で実装。生成前に入力を正規化し、出力はスキーマで検証
  • モデル選択: 長文・指示遵守はClaude、ツール連携や画像OCRはGemini、短文化や要約はChatGPTなど、タスクごとに最適化。コストとレイテンシも数値で比較

プロンプトは一度作って終わりではなく、観測し、回し、直していく対象です。テンプレート、評価、ルーティング、ガードレールをひとつの土台に載せられると、現場は「プロンプト職人芸」から解放されます。生成AIプラットフォーム事業では、この土台づくりこそが価値の中心であり、各モデルの進化を取り込みながら、業務に耐える生成の安定運用を実現できます。