
生成AI×動画字幕自動生成
無音再生が当たり前になり、アクセシビリティ要件も強まる今、動画は「字幕があること」を前提に設計した方が伸びます。鍵は、音声認識(ASR)で書き起こし、生成AIで読みやすく整え、運用に耐えるワークフローに落とすことです。単発の自動化ではなく、計測・改善を回せる仕組みにすることで、コンテンツ規模が増えても破綻しません。
ワークフロー設計:「書き起こす→整える→翻訳→配信」
音声認識と話者分離
まずは音声を16kHzモノラルに正規化し、無音区間を検出してチャンク化します。ASRは精度とレイテンシで選びます。収録環境が一定なら軽量モデルを常時稼働、現場音が混ざる場合はノイズ抑制+話者分離(diarization)を併用します。社内固有名詞は用語辞書で強化し、誤変換を減らします。
LLMで整文・要約・用語統一
生成AIは「字幕として読みやすい文」へ整える工程で真価を発揮します。句読点復元、言いよどみ削除、尊敬語の統一、専門用語の表記ゆれ解消をプロンプトで明示します。ChatGPTやClaude、Geminiは文体制御が得意で、Copilotでエディタ内からの校正も実用的です。表示秒数と行幅を見越して、1キャプションの文字数を自動分割するロジックを入れると人手の再調整が減ります。
配信フォーマットとCMS連携
出力はSRT/WebVTTを基本に、プラットフォーム側の仕様(改行上限、表示位置、絵文字可否)に合わせます。タイムコードは±120ms以内の誤差に収めると視聴体験が安定します。多言語化は原文字幕を基準にLLM翻訳→人手の軽微レビュー→言語別ガイドライン(敬称、単位、固有名詞)で仕上げます。CMSにはメタデータ(話者、トピック、NGワード検出結果、版数)を一緒に登録して、差し替え時もトラッキングできるようにします。
品質を数値で管理する
感覚ではなく数値で判断できると、内製・外注の切り替えや投資判断が容易になります。目安は次の通りです。
- ASR精度(WER/CER):社内向けはWER≤12%、外部公開はWER≤8%を目標
- 句読点復元精度:90%以上(専門対話は85%以上でも可)
- タイムアライメント:中央値誤差≤80ms、95パーセンタイル≤150ms
- 読速度:1秒あたり5〜7文字、1キャプション2行以内・各行14文字目安、表示時間2〜6秒
- 用語辞書ヒット率:重要用語の正規化率95%以上
- 多言語品質:機械指標(COMETなど)+1〜5%の人手サンプリングで合格率98%以上
監査観点では、個人情報や機密語のマスキング、差別表現の自動検出、BGM歌詞の誤認回避も必須です。モデル更新時はA/BでWERと視聴完了率の差分を取り、数値が悪化すれば即時ロールバックできるようにしておきます。
コストと運用の意思決定
1本あたりではなく「分単価×本数×再編集率」で見積もると現実的です。概算は次のイメージです。
- ASR推論:5〜20円/分(ノイズや話者分離の有無で変動)
- LLM整文・翻訳:1〜10円/分(トークン量と言語数に比例)
- 人手レビュー(軽微):100〜200円/分、専門性が高い場合は300円/分超
例)30分×週3本、軽微レビューあり、2言語展開の場合。自動化のみで約180〜900円/本、人手込みで3,000〜6,000円/本。月間では約4〜8万円規模です。再編集率(差し替え発生)を20%→5%に抑えると、翌月から実コストが大きく下がります。判断ポイントは「公開スピード優先か、正確性優先か」。速報系は自動化100%+後日差し替え、常設LP動画は人手10分レビューを挟む、のように線引きするのが現場では現実的です。
身近な企業活用例:製造系企業の採用動画、失敗から改善
精密部品を作る従業員数十名の製造系企業。採用強化で現場インタビュー動画を毎月公開しましたが、最初はYouTubeの自動字幕頼みで、騒音下の固有名詞が「加工」を「過去」に、製品名も誤変換。字幕が読みにくく、視聴完了率は25%止まりでした。
改善は3点。まず収録を見直し、現場ノイズを下げるために指向性マイク+ポップガードを導入。次に用語辞書を整備(製品名、社内略語200語)し、ASRに適用。最後にChatGPTとClaudeで整文ルールを固定(敬体、箇条書き禁止、1行14文字以内、ルビ不要)し、WebVTTへ自動分割。仕上げの1割だけ人手で固有名詞を確認しました。
結果、WERは18%→7%に改善。字幕の読速度も安定し、視聴完了率は25%→43%に上昇。制作リードタイムは20時間/本→6時間/本、1本あたりコストも約70%削減。ノイズが強い工法解説だけはGeminiで技術用語の英訳を補助し、海外向けにも展開。最後はCopilotで台本と字幕差分を自動検出し、差し替え事故を防止しました。失敗要因は「収録品質と辞書不備」。運用に耐える形に直すことで、小規模組織でも継続的に回る体制になりました。
字幕自動生成は、モデル選定よりも「辞書・ルール・計測・収録」の地味な積み重ねが勝敗を分けます。動画の在庫が増えるほど、整備した仕組みの差がそのまま成果に跳ね返ります。生成AIプラットフォーム事業として取り組む価値は、ASRやLLMをただ繋ぐのではなく、品質指標・辞書・監査・配信連携を統合した基盤として運用し、組織の動画コミュニケーションを継続的に強化できる点にあります。