Paramount+：生成AIで5万本以上の動画要約・メタデータ自動生成を実現

Before

Paramount+（Paramount Streaming）は、米国を代表するストリーミングプラットフォームであり、5万本以上の動画コンテンツを保有している。同社の戦略目標は、サブスクライバー基盤の拡大、視聴者の維持、エンゲージメントの向上、収益性の改善である。メディア・エンターテインメント業界において、同社はAIを付加的な機能ではなく戦略の中核に位置づけている。

しかし、膨大なコンテンツライブラリの管理には深刻な課題があった。

手作業によるメタデータ作成の非効率

5万本以上の動画に対して要約とメタデータタグ付けを行うには、数千時間に及ぶ手作業が必要だった。コンテンツごとにストーリーの要約、ジャンル分類、出演者情報、テーマタグなどを人間が手動で作成するプロセスは、コンテンツ追加のスピードに追いつかず、既存コンテンツの整理も backlog が蓄積する状況にあった。

サードパーティメタデータの品質とコスト

メタデータを外部プロバイダーから調達していたが、コストが高く、かつ効果的なパーソナライズに必要な粒度や精度を満たしていなかった。汎用的なジャンル分類やあらすじでは、「クリスマス物語」「ハロウィンホラー」「西部劇」といった視聴者の好みに応じた細かなコレクション作成が困難だった。メタデータは推薦システムを動かすMLアルゴリズムの燃料であり、同時に視聴者がコンテンツを発見するために必要な情報を提供する重要な役割を担っていた。

パーソナライズの限界

Paramount+が目指す「ビデオDJ」コンセプト——視聴者の好みに合わせて「始まり・中盤・終わり」のあるストーリー性を持つパーソナライズドコレクションを作成する——を実現するには、オリジナルコンテンツに付随していない詳細なメタデータが必要だった。既存のメタデータでは、クリスマスムードのあるアクション映画や、家族向けの感動作といった、クロスジャンルの個別属性を捉えることができなかった。

AI導入内容

Paramount+はGoogle Cloud Consultingと協働し、 「GenAI Jump Starts」 という構造化されたアプローチでMVPソリューションを迅速に開発した。ビジネス目標のすり合わせ、ブレインストーミングセッション、オンラインランチ＆ラーンによる組織的知識構築を実施した。

準備：代表性のあるサンプル選定

実装前に、異なる長さ、ジャンル、公開時期を代表する10本のサンプル動画を選定。LLMの出力形式を事前に協議し、プロンプトとメタデータフィールドの両方を反復改善した。アクセス権限の複雑さを避けるため、Paramountの公開YouTubeチャンネルの動画をソース素材として使用するという実用的な判断も行った。

3コンポーネントアーキテクチャ

1. トランスクリプション作成

クラウドストレージのソース動画から音声を抽出し（HLS形式から最高品質の音声を選択）、Speech-to-Text（STT）処理を実行。既存のトランスクリプトがない場合や品質が不十分な場合のフォールバックとして機能する。モデル選択には柔軟性を持たせ、Googleのマネージドサービスか、オープンソースのWhisper distill version 3をコンテナ化して独自サービスとして実行する選択肢を確保した。

2. 生成フェーズ

トランスクリプトがストレージに格納されるとイベント駆動で生成プロセスがトリガーされる。生成結果はFirestoreにキーバリュー形式（コンテンツIDをキー）で格納され、パーソナライゼーションシステムで利用可能になる。プロンプトエンジニアリングには、few-shot prompting（具体例の提供）や、構造化情報取得のためのIMDbへのfunction callingなどの技術を投入した。

3. パーソナライゼーション統合

生成されたデータはクリックストリームデータ（アプリ上のユーザーインタラクション）と結合され、推薦システムの強化と表示用の要約として利用される。トランスクリプトからの埋め込み生成には、LoRA（Low-Rank Adaptation）微調整を使用して埋め込み空間を必要なサイズに縮小。情報密度を最大化しつつ、小規模モデルでも単一GPU上で実行可能にしている。

プロンプトエンジニアリングの最適化

プロンプトチェイニング タスクをサブタスクに分割することで、コンテキストウィンドウの制御、本番環境でのデバッグ容易性、ダウンストリームワークロードの削減を実現した。

プロンプトテンプレート ジャンル別またはマイクロジャンル別のプロンプトを開発し、異なる視聴者層の嗜好に応じた要約の関連付けを計画している。

LLMによるプロンプト生成 初期プロンプトをLLM自体に生成させ、そこから反復改善を行うメタアプローチを採用した。

本番環境での課題対処

トークン制限 映画のトランスクリプトは非常に長く、トークン制限を超える可能性がある。この問題には、トランスクリプトをチャンク化して処理し、最終的に結果を集約する手法で対処した。

安全性フィルタ 成人向けテーマを含む映画・番組では、適切な出力を得るための安全性フィルタ設定の調整が必要だった。

温度とサンプリングパラメータ 特定の目標に応じた適切なtemperature、top-p、top-k設定の決定には実験が必要だった。

継続的改善と微調整

人間の嗜好データセット 要約の精度や興味を引く質を人間が判定したランダムな要約選択で、嗜好モデルを学習させる。

評価データセット 微調整済みモデルをテストするためのラベルなし評価セットを用意。

報酬モデル学習 人間の嗜好データで報酬モデルを学習し、微調整済みモデルの重みを更新する。

After

生成AIによる動画要約・メタデータ抽出の自動化により、Paramount+はコンテンツ管理と視聴者体験の両面で革新的な改善を達成した。

メタデータ作成工数：約50%削減

従来、人間が手作業で行っていた要約作成とメタデータタグ付けの多くが自動化され、メタデータ作成工数が約50%削減された。特に5万本以上の既存ライブラリに対する retrospective なメタデータ付与において、人的リソースの節約効果は巨大である。

コンテンツ発見性の向上

自動生成された要約と詳細なメタデータにより、視聴者はコンテンツの内容をより正確に把握できるようになった。「クリスマス」「ハロウィン」「西部劇」といったオリジナルコンテンツには付随していなかったテーマ属性を自動的に付与することで、視聴者の嗜好に合わせたパーソナライズドコレクション作成が可能になった。

パーソナライゼーションの深化

要約データが推薦アルゴリズムに直接組み込まれることで、顧客が映画や番組を選択する際の視覚的プレゼンテーションの質が向上した。トランスクリプトから生成された埋め込みは、コンテンツ間の類似性をより細かく捉え、従来のジャンル分類では結びつけられなかった作品間の関連性を発見できるようになった。

クリエイティブ業務への時間還元

数千時間に及ぶ手作業からクリエイティブチームと戦略チームが解放され、コンテンツ企画や視聴者エンゲージメント戦略など、付加価値の高い業務に注力できるようになった。サードパーティメタデータプロバイダーへの依存も減少し、コスト削減と自社コンテンツの細かな理解の両立を実現している。

今後の展望

Paramount+は、ジャンル・マイクロジャンル別のプロンプトテンプレート連鎖、エンコーダのみの分類器を用いた要約のスコアリングとA/Bテスト、個別の視聴者嗜好を反映した動的メタデータ、そして各コンポーネントを異なるエージェントが担当するモジュラーアーキテクチャへの進化を計画している。

Paramount+の取り組みは、メディア・エンターテインメント業界におけるLLMの本番適用において、明確なビジネス目標から始まりMVPを開発し、継続的なフィードバックループを確立するという堅実なアプローチを示した事例である。技術的アーキテクチャは、フォールバックメカニズム（トランスクリプト不在時のSTT）、イベント駆動処理、既存システム統合への適切な配慮がなされた、本番環境を見据えた設計となっている。