Before
eBayは全世界で約20億件のリスティング、1億3000万人以上のアクティブバイヤー、190のマーケットプレイスサイトを運営する巨大ECプラットフォームである。同社のイスラエル研究チームは、出品者が適正な価格を設定できるよう支援する価格推奨システムの開発に取り組んでいた。
特にスポーツトレーディングカード市場では、価格設定が極めて困難だった。中古品が多く、同じ選手のカードでも直筆サインの有無、レア度(1枚しか印刷されていないケースもある)、コンディション(状態)、グレーディング(鑑定評価)、特定の選手・年の組み合わせなど、無数の属性が価値に影響を与える。さらに、コレクター間では「RC」(Rookie Card=新人カード)、「auto」(autograph=直筆サイン)などの専門用語や略語が多用され、従来のキーワード検索ではこれらの意味的な等価性を捉えきれなかった。
出品者が新規リスティングを作成する際、過去の類似商品の販売実績を参考に価格を設定する必要がある。しかし、キーワード検索では「signed」と「auto」が別物として扱われたり、「lot of 12」(12個セット)と「lot of 3」(3個セット)の重要な数量差を見落としたりするケースが頻発していた。結果として、出品者は適正価格を設定できず、売れ残りや不当に低い落札価格が生じるリスクがあった。
AI導入内容
eBayはこの課題に対し、密なベクトル埋め込み(dense vector embeddings)と検索拡張生成(Retrieval-Based)アプローチを組み合わせた価格推奨・類似商品検索システムを開発した。
BERTベースの埋め込みモデル
商品タイトルをBERTベースのTransformerエンコーダーに通し、密なベクトル表現を生成する。すべての過去販売商品をベクトルデータベースに保存し、出品者が新規リスティングを作成すると、k近傍法(KNN)検索で類似した過去商品を検索する。出品者には、特定の推奨価格か、あるいは類似販売実績の例として提示される。
一般用途の埋め込みモデルと比較した結果、eBayの独自データで学習したドメイン特化モデルの方が圧倒的に高い性能を示したことが判明した。GPUリソースと十分な学習データがあれば、カスタム学習が最も効果的であるという知見が得られた。
コントラスティブ学習とデータ生成
学習データの生成には、ユーザーの検索行動データを活用した。6語以上の具体的な検索クエリから、同じ検索結果内でユーザーがクリックした複数アイテムを「類似アイテム」として正例ペアとして抽出した。さらに価格帯が近く、構造化データ(選手名など)が一致するなどの追加検証ルールを適用することで、データ品質を高めている。
負例(類似しないアイテム)の選定には、イン・バッチ負例(同じバッチ内の他アイテムを負例とする手法)に加え、ハードネガティブマイニングを実装した。同じ選手・同じチームのカードであっても、グレードやコンディションが異なるアイテムを負例として選ぶことで、価格に影響する微妙な属性を学習するモデルの感度を高めた。
セマンティック類似性と価格精度のトレードオフ解消
開発過程で、根本的なトレードオフが明らかになった。
アプローチ1:純粋なセマンティック類似性 コントラスティブ学習だけでモデルを学習すると、意味的に類似したアイテムは正しくクラスタリングされるが、価格に影響する微妙な差異を見落とすケースがあった。評価すると平均絶対誤差(MAE)は38ドルとなった。
アプローチ2:タイトル→価格予測 タイトルテキストから販売価格を直接予測するようモデルを学習し、最終層のCLSトークンから埋め込みを抽出すると、MAEは29ドルに改善した。しかし、セマンティック的に全く異なるアイテム(LeBron JamesカードとStephen Curryカード)が偶然同じ価格帯で売れた場合、類似商品として推奨されるリスクがあり、出品者の信頼を損なう可能性があった。
この課題を解決するため、マルチタスク学習アーキテクチャを開発した。ネットワークの重みを共有し、セマンティック類似性学習と価格予測を交互に学習させる。ハイパーパラメータ(alpha)で両目的の相対的な重みを制御することで、ビジネス要件に応じたトレードオフ曲線上の最適点を選択できるようにした。
本番運用のための技術設計
本番環境への展開にあたり、以下の実用的な配慮がなされた。
- 効率的なエンコーディング:数百万件の過去リスティングをベクトル化する処理の効率化
- KNN検索基盤:高速な類似検索を実現するベクトルデータベースの構築
- マルチタスクの柔軟性:ビジネスステークホルダーが、ユーザーの信頼性要件に応じた適切なトレードオフポイントを選択可能
eBayはこのシステムを「出品者にデータに基づくガイダンスを提供し、適正な価格設定を支援する」純粋な支援ツールとして位置づけ、プラットフォーム側の価格操作や利益最適化には使用しない方針を明確にしている。
After
マルチタスク学習アプローチにより、eBayは以下の定量的成果を達成した。
価格予測精度の向上
タイトル→価格予測アプローチにより、純粋なセマンティック類似性モデルのMAE 38ドルに対し、MAE 29ドルを達成した。これは約24%の予測誤差削減に相当する。同時に、マルチタスク学習によりセマンティック類似性の維持と価格精度の向上を両立させ、誤った選手名を類似商品として提示するリスクを低減した。
出品者体験の信頼性向上
セマンティックに類似した商品を提示することで、出品者は「なぜこの価格が推奨されるのか」を直感的に理解できる。価格だけが近いが内容的に無関係な商品を提示されることによる混乱を避け、プラットフォームへの信頼を維持している。
大規模マーケットプレイスへの適用
このシステムはeBayの約20億件のリスティングという巨大なカタログを持つマーケットプレイスで実用化されており、高度な機械学習モデリングと実用的なエンジニアリングの両立を示す先進事例となっている。オフザシェルの埋め込みモデルではなく、ドメイン特化の学習とハードネガティブマイニング、マルチタスク学習という洗練されたアプローチが、生産環境でのeコマース検索にどう応用されるかを示した貴重な実践例である。
公開日: 2024年3月1日
事例一覧に戻る