Before
WSC Sportは、グローバルに事業を展開するスポーツテクノロジー企業で、従業員数は約400名。NBA、NFL、NHL、ブンデスリーガ、プレミアリーグなど主要スポーツリーグと提携し、スポーツ映像の自動生成技術を提供している。
同社が解決しようとした根本的な課題は、現代のスポーツ消費者——特に若年層——のニーズの変化である。試合全体を観戦するより、5〜10分で全ての重要な瞬間と興味深い統計を網羅したサマリーを望む層が拡大している。従来、このようなナレーション付きハイライト動画を制作するには、解説者が試合情報、統計、選手の背景(故障からの復帰など)、試合の流れをすべて把握し、脚本を作成してスタジオで録音、品質保証を行う必要があった。この一連のプロセスには3〜4時間を要し、迅速なコンテンツ配信のボトルネックとなっていた。
AI導入内容
WSC Sportは、LLMを中核とした自動スポーツ解説生成システムを本番展開した。システムは「Roger」(脚本生成)と「John」(音声合成)という2つの主要コンポーネントを持つ。
パイプライン構成
ハイライト生成 WSC Sportの既存コア技術により、スポーツ中継から重要な瞬間を自動的に抽出・評価する。この層が基盤となり、「何が起きたか」「どれほど重要か」をシステムが事前に把握している。
脚本生成「Roger」 イベントデータと背景知識を統合して、一貫性のある脚本を作成するLLMベースのコンポーネント。試合前後の文脈、勢いの転換(逆転劇など)、興味深い統計、記録的な達成(レブロンの歴史的瞬間など)を理解し、物語性のあるナレーションを生成する。
音声合成「John」 TTS(Text-to-Speech:テキスト読み上げ)コンポーネントとして、映像内容と同期し、興奮や感情を適切に注入しながら自然な解説を生成する。画面に映る内容と音声のタイミングを正確に合わせる必要がある。
翻訳レイヤー スペイン語、フランス語、ポルトガル語(ブラジル)、トルコ語、ポーランド語などへの自動翻訳も実装。各言語のニュアンスに対応する。
構造化メタデータによる幻覚削減
システムは、各ゲームイベントについて以下の構造化データを明示的にモデルに提供する。
- イベントの異常性・重要性を示す評価スコア
- 具体的なアクションタイプ(ダンク、3ポイント、アシストなど)
- 特別なパラメータと属性
- 統計的文脈
- 選手・チーム情報
「モデルに推測させるのではなく、明示的に情報を与える」という戦略が、幻覚(ハルシネーション)削減の鍵となっている。
アプローチの進化
ゼロショットアプローチ 初期は、全イベントの詳細を一度にモデルに入力して脚本を生成する方式だった。しかし、長さの制御が不可能で、イベントの解説量と映像の長さがずれてナレーションと映像の同期が崩れる、特定の側面に注意を向けられないなどの問題が発生した。
逐次アプローチ 各イベントを個別に処理する方式に移行し、制御性は向上したが、新たな課題が生じた。
3つの柱による品質向上
1. システムプロンプトエンジニアリング
- 文脈認識:カバーするスポーツ、リーグ、特定の大会に関する文脈を提供。異なるリーグには異なる専門用語や語彙がある
- 構造化アプローチ:選手、チーム、属性を明示的に伝え、推測させない
- 明確な指示:何をすべきか、何を避けるべきかの明確なガイダンス。例えば、NBAは選手の不調を否定的に強調しないことを求めている
2. 動的プロンプト指示 反復表現(「もう一度見てみよう」などのフレーズが繰り返される問題)を防ぐため、現在のイベントに応じてfew-shot例を動的に選択するシステムを構築。アクションタイプ、試合時間、特別属性、統計の有無などで例をインデックス化し、ランダムサンプリングを行うことで多様性を確保した。
3. Chain of Thoughtによる幻覚検出 生成された脚本に対し、Chain of Thoughtプロンプティングで検証を行うガードレールを実装。例えば、「steal(ボール奪取)」と記述されたイベントに、実際にはstealが発生していない場合、モデルに問題を小さな検証ステップに分解させ、イベントデータと照合して矛盾を検出する。
本番運用の洞察
現在、NBAアプリにてスペイン語、フランス語、ポルトガル語の解説を提供している。複雑なパイプライン(音声合成、翻訳、映像編集)の中で、脚本生成が品質の決定的ボトルネックであると特定し、LLMOpsの投資をこの部分に集中させた。
After
WSC Sportの自動解説システムは、スポーツコンテンツ制作の効率化において画期的な成果を上げた。
制作時間の劇的短縮
ナレーション付きハイライト動画の制作時間が3〜4時間から約1〜2分に短縮された。試合終了後、ほぼ即座に解説付きリキャップを配信できる体制が確立された。
多言語展開の実現
スペイン語、フランス語、ポルトガル語などへの自動翻訳と音声合成により、グローバルなファン層に向けたコンテンツ配信がスケール可能になった。多言語解説を人間解説者で賄うことのコストと時間を大幅に削減している。
品質とスケーラビリティの両立
構造化メタデータと動的プロンプト、Chain of Thought検出の組み合わせにより、ハルシネーションを抑制しながら高品質な解説を自動生成できる。自動品質保証の仕組みも構築し、人間による全件レビューの必要性を排除した。
業界への応用可能性
スポーツという特殊な領域で培われた「明示的メタデータ提供+動的few-shot+CoT検証」という3本柱のアプローチは、他のリアルタイムナレーション生成領域にも応用可能なモデルとなっている。今後は、画面上への統計グラフィックの動的追加や、クリエイティブなスタイル(Snoop Dogg風の解説など)の実験も視野に入れている。
WSC Sportの取り組みは、LLMの創造性とスポーツという専門領域の正確性をどう両立させるかという課題に対し、構造化データと精巧なプロンプトエンジニアリング、そして多層的な品質管理によって解答を示している。
公開日: 2024年6月1日
事例一覧に戻る