Faire：Llama3微調整で検索関連性予測精度を28%向上

Before

Faireは世界中の数十万人の独立系ブランドと小売店をつなぐグローバル卸売マーケットプレイスである。小売店が自店の商品ラインナップに追加する品物を発見・購入する上で、検索機能は最重要の役割を果たしている。しかし、検索結果にクエリと無関係な商品が混在すると、小売店が求める商品を見つける妨げになるだけでなく、Faireがブランドと小売店を適切にマッチングできる能力への信頼も損なわれる。

検索関連性の評価は、これまではデータアノテーションのベンダーに依頼した人手ラベリングに頼っていた。専門のラベリングガイドラインを複数回改善し、ラベラー間の一致率を90%以上に達成するまでは有用なデータが得られたが、このアプローチには根本的な限界があった。まずコストが高く、また測定からラベルが利用可能になるまで1か月のタイムラグが生じるため、即座に意思決定に反映できなかった。

次に、GPTモデルを微調整してラベリングを自動化する段階に進んだ。テキスト補完問題として構築し、検索クエリと商品情報を入力して4段階の関連性ラベルを出力させる方式で、Krippendorff’s Alpha（ラベラーとの一致度指標）0.56を達成した。これにより日次の関連性測定が可能になったが、APIコストがボトルネックとなり、処理できるラベル数に限界があった。さらに、パーソナライズされた検索結果の導入により、クエリと商品の組み合わせのバリエーションが増加し、既存の測定ソリューションでは個別化の集計効果を捉えきれなくなっていた。

AI導入内容

Faireはコストと精度の両方を改善するため、オープンソースのLlama3-8bを独自データで微調整するアプローチを選択した。小規模モデルであっても、検索関連性のような特定の言語理解問題には数百億パラメータの巨大モデルは必要ないという仮説のもと、自社GPUクラスタ上でモデルの開発から推論までを内製化した。

Llama3微調整の技術アプローチ

モデル設定と学習

ベースモデルとしてLlama2-7b、Llama2-13b、Llama3-8bを評価。これらはA100 GPUのメモリに収まり、プロトタイピングと反復が高速に行える利点がある
ベースモデルの重みを固定し、LoRA（Low-Rank Adaptation）アダプターによるパラメータ効率型微調整を採用。学習対象パラメータはベースモデルの約4%にとどまり、メモリ使用量と学習速度を大幅に削減
シーケンスの短いものは<eos>トークンでパディングし、補完テキスト内のトークンのみクロスエントロピー損失を計算
8台のA100 GPU上でDeepSpeedを使用し、データ並列・テンソル並列を活用して学習
勾配チェックポインティングによりGPUメモリ消費をさらに削減し、OOM問題を防ぎながら学習の安定性を確保

データセット

Small（1.1万件）、Medium（5万件）、Large（25万件）の3サイズのデータセットを構築。既存の本番モデルはSmallデータセットで微調整された大規模GPTモデルだったが、新しいLlamaモデルはMediumおよびLargeデータセットで2エポック学習させた。最大のLlama2-13bでもLargeデータセットの学習は約5時間で完了した。

性能とコストの最適化

精度の飛躍

Llama3-8b（Largeデータセット学習）が最も高い性能を示し、既存の本番モデルと比較してKrippendorff’s Alphaで28%の改善を達成した。主な知見は以下の通りである。

基本的なプロンプトエンジニアリング（ゼロショット予測）は、微調整済みGPTモデルの精度のほぼ半分しか出せなかった
ラベルデータセットのサイズと構成を増やすことが、性能向上において最も重要な要因だった
同一のMediumサイズデータセットでは、微調整済みGPTとLlama2-7bが同等の性能を示し、Llama3-8bは約8%改善。Llama3-8bはLlama2-13bと同等の性能を達成した
LargeデータセットでのLlama3-8bが最良であり、Llama2-7bとの差は約1.4%に縮まった

自社推論基盤

Llama3-8bモデルを自社GPUクラスタ上にホストし、新規検索セッションの関連性バッチ予測を生成する。1日数千万件の商品とクエリのペアをスコアリングする必要があるため、スループット最大化を重視した構成とした。

8ビット量子化でモデル圧縮
単一A100 GPU上でバッチ処理
DeepSpeedで推論速度向上
GPUインスタンスの水平スケーリング

この構成により、バックフィル時に16台のGPUで1日7000万件の予測を処理できるスループットを達成した。

After

Llama3微調整モデルの導入により、Faireの検索関連性測定は質的に変化した。

測定のリアルタイム化とコスト削減

人手ラベリングの1か月タイムラグから、日次の関連性測定へと移行した。GPTベースの外部API依存から自社ホストモデルへ移行したことで、ラベリングコストを大幅に削減し、スケーラビリティのボトルネックを解消した。

下流アプリケーションへの波及効果

スケールアウトされた関連性予測は、多くの下流ユースケースを解鎖した。

オフライン検索分析：検索アルゴリズムの性能変化を関連性指標で測定
パーソナライゼーションの影響測定：個別化された検索結果がエコシステム全体の関連性に与える効果を定量化
実験の関連性貢献測定：A/Bテストが関連性に対してどの程度貢献したかを数値化
エンゲージメントと関連性のトレードオフ探索：ランカーにおいて、エンゲージメント指標と関連性のパレート最適フロンティアを探索

将来の展望

現在の関連性予測は主にオフライン分析に利用されているが、リアルタイム検索結果の関連性を動的に変更するような展開も視野に入れている。これには低コスト・低レイテンシーの推論ソリューションが必要となる。

今後は、ドメインコンテキストの不足（ブランドの商品ラインやスタイルの理解）、テキストのみの限界（画像情報の欠如）などを改善するため、RAG（検索拡張生成）によるドメイン知識の補強や、マルチモーダルLLM（LLaVAなど）による画像情報の活用を検討している。さらに、LLMが関連性ラベルを付与した理由を説明できる仕組みを構築し、難しい検索ケースの理解とChain-of-Thoughtによる性能向上も目指している。

Faireの取り組みは、オープンソースLLMの微調整が、大規模クローズドモデルに匹敵する性能をコスト効率よく実現できることを示した重要な事例である。