WordSmith：LangSmithで法務AIのLLMライフサイクル全体を可視化・最適化

Before

WordSmithは、企業内法務チームを対象としたAIアシスタントである。法務文書のレビュー、メールドラフト作成、契約書生成などを、顧客のナレッジベースを活用したLLMで実行する。大手法律事務所から得た深いドメイン知識を持ち、メールやメッセージングシステムにシームレスに統合され、まるでチームの仲間と仕事をするような体験を提供する。

ここ数カ月でLLMを活用した機能が指数関数的に増加した一方、エンジニアリングチームには本番環境でのLLM性能やインタラクションの可視性が不足していた。複数のモデル（OpenAI、Anthropic、Google、Mistral）を横断し、Slackメッセージ、Zendeskチケット、プルリクエスト、法務文書など異種混在のデータソースに対してRAGやエージェントワークフローを実行する中で、Cloudwatchログのみに頼ったデバッグでは限界があった。特に、最大100個のネストされた推論から成るワークフローで異常が発生した際、根本原因を特定する作業は時間と労力を極度に消費していた。

また、コストとレイテンシの最適化も喫緊の課題であった。タスクの複雑さは一様ではなく、高速で安価なモデルを使える箇所と、高性能モデルが必要な箇所の使い分けが明確でなかった。アドホックなクエリでのモデル比較では、本番への影響を適切に評価できず、改善サイクルが遅延していた。

AI導入内容

WordSmithは、LangSmithをプロダクトライフサイクルの全段階——プロトタイピング、評価、デバッグ、実験——に導入した。

階層的トレーシングによる開発加速

LangSmithのトレーシング機能により、複雑なマルチステージ推論チェーンの各ステップでLLMが何を受け取り、何を生成しているかを可視化できるようになった。100個のネストされた推論を含むエージェントワークフローにおいても、中間ステップでの性能低下をシームレスに診断できる。これにより、Cloudwatchログを手作業で精査していた時代と比較して、フィーチャー開発のサイクルが大幅に短縮された。

評価セットによる再現性のある計測

RAG、エージェントワークロード、属性抽出、XMLベースのchangesetターゲティングなど、各タスク向けの評価セットを構築した。これにより以下の効果が生まれた。

明確な要件の定義：正解となる質問と回答のセットを作成することで、LLMに対する期待値が明文化された
高速なモデル比較と本番適用：Claude 3.5のリリース時、GPT-4oとの性能比較を1時間以内で完了し、同日中に本番リリースを実現
コスト・レイテンシ最適化：評価セットを基に、高速・低コストモデルで代替可能なタスクを特定。特定タスクにおいてコストを最大10倍削減

本番モニタリングと高速デバッグ

本番環境で発生したエラーに対し、LangSmithのフィルタ機能で推論関連の問題を即座に絞り込める。LangSmithのURLをたどるだけで、ログを精査する必要がなく、デバッグ時間を分単位から秒単位に短縮した。

オンライン実験との統合

Statsigをfeature flag・実験曝露ライブラリとして使用し、LangSmithのタグと連携。各実験群の割り当てをタグ付けすることで、LangSmith上で実験群間の比較分析をシームレスに行える体制を構築した。これにより、A/Bテストの結果を推論品質の観点から深く分析し、データ駆動の製品改善を実現している。

今後の展開：顧客ごとのハイパーパラメータ最適化

RAGパイプラインには埋め込みモデル、チャンクサイズ、ランキング・リランキング設定など、広範で増え続けるパラメータ群がある。これらのハイパーパラメータをLangSmithタグにマッピングし、顧客ごと・ユースケースごとにオンラインデータセットを作成して最適化することを計画している。データセットが蓄積されるにつれ、各顧客のRAG体験が自動的に最適化される世界を目指している。

After

LangSmithの導入により、WordSmithはLLM運用の速度と品質を両立させた。

開発サイクルの短縮

階層的トレーシングにより、複雑なエージェントワークフローの異常箇所を即座に特定できるようになった。デバッグの非効率さから解放され、エンジニアは新機能の開発に注力できる環境が整った。

コスト最適化の実現

評価セットに基づく厳格な計測により、タスクごとに最適なモデルを選択できるようになった。特定タスクで最大10倍のコスト削減を達成しつつ、精度を担保した本番運用を維持している。

本番品質の可視性向上

評価セットによるベースライン管理と、本番エラーの高速デバッグ体制により、LLMの性能劣化を早期に検知・修正できる。Claude 3.5のような新モデルへの迅速な適用も、評価セットによる信頼性のある判断が可能になった。

データ駆動の実験文化

LangSmithタグを用いた実験分析により、feature flagの変更が推論品質に与える影響を定量的に把握できるようになった。製品の継続的な実験と改善に不可欠な基盤として機能している。

WordSmithの取り組みは、複数モデル・複数データソースを跨ぐ複雑なLLMアプリケーションにおいて、トレーシング・評価・実験の一体化が開発速度と運用品質をどちらも高めるかを示している。特に、法務という専門性と正確性が要求される領域で、再現性のある評価と本番の可視性がいかに重要であるかを体現している。