Amazon：RAG金融Q&Aアシスタントで回答精度49%→86%に向上

Before

AmazonのFinance Automation部門が抱えていた課題は、Accounts Payable（AP）およびAccounts Receivable（AR）チームにおける顧客問い合わせ対応の非効率性にあった。アナリストは顧客からの問い合わせに回答するために、複数のポリシードキュメントや標準操作手順（SOP）を確認し、専門家（SME）に相談する必要があり、数時間から数日を要していた。特に新入社員にとっては、組織内の暗黙知に即座にアクセスできないため、対応に時間がかかり、業務のボトルネックとなっていた。

この状況は単なる個人の生産性の問題にとどまらなかった。金融業務における誤った回答は顧客関係の悪化やコンプライアンスリスクに直結する。しかし、膨大なポリシードキュメントから適切な情報を迅速に引き出すことは人間の手作業では限界があり、組織全体としての知識活用が十分に進んでいなかった。問い合わせ対応の質と速度を同時に向上させるためには、自動化と知識の体系化が急務であった。

AI導入内容

Amazon Finance Automationは、Amazon Bedrockを基盤としたRAG（検索拡張生成）パイプラインを構築し、金融ポリシーに関する問い合わせに即座に回答する生成AIチャットアシスタントを開発した。初期デプロイ時の精度は 49% にとどまったが、体系的な評価と改善を重ね、最終的に 86% まで精度を向上させた。

技術アーキテクチャ

システムは以下の主要コンポーネントで構成される。

ナレッジベースとベクトルストア：Amazon OpenSearch Serviceをベクトルストアとして使用し、複数の金融ポリシードキュメントを埋め込み・インデックス化している。将来的にはAmazon Bedrock Knowledge Basesへの移行も検討しており、自己管理のオーバーヘッド削減と拡張性の向上を目指している。

埋め込みモデル：Amazon Titan Multimodal Embeddings G1モデルを採用。比較分析の結果、市場の他の埋め込みモデルと同等以上の精度を示したことが判明した。埋め込みモデルの選択は、システム全体の性能に決定的な影響を与えることが後の改善プロセスで実証された。

ジェネレータモデル：Amazon Bedrock上の基盤モデルを生成エンジンとして使用。正確性と応答速度のバランスを重視して選定された。

ランキングコンポーネント：2つの専用ランカーで検索品質を強化している。ダイバーシティランカーは特定ドキュメントへの偏りを防ぎ、lost in the middleランカーはプロンプトの先頭と末尾に最も関連性の高い結果を配置する。これにより、長いコンテキストにおけるLLMの情報欠落問題を緩和している。

安全性と検証：Amazon Bedrock Guardrailsで個人情報（PII）の検出とプロンプトインジェクション攻撃から保護する。さらに、生成された回答からPIIを除去し、取得したコンテキストと整合性を検証するバリデーションエンジンを設置。整合性が取れない場合は「わかりません」というハードコードされた回答を返すことで、ハルシネーションを防止している。

精度向上の旅路

チームは3つの主要イニシアチブで精度を49%から86%まで引き上げた。

セマンチックドキュメントチャンキング（49% → 64%）

固定サイズのチャンキング（512トークン）では文書の論理的境界を無視していたため、14%の不正確性が不完全なコンテキストに起因していた。新たなアプローチでは、QUILL Editorで非構造化テキストを構造化HTMLに変換し、HTMLタグ解析でセクション境界を特定してから埋め込みベクトルを生成した。これにより、文脈に応じた適切な情報の切り出しが可能になった。

プロンプトエンジニアリング（64% → 76%）

汎用的なプロンプトから、タスク特化型のプロンプトエンジニアリングへ移行した。関連コンテキストが取得できない場合の回答生成を防ぐ指示、簡潔な要約と詳細回答の両方を生成できるようにする指示、出典ハイパーリンクを生成する指示、そしてChain-of-Thought推論を導入する指示を加えることで、回答の網羅性と正確性を向上させた。

埋め込みモデルの最適化（76% → 86%）

セマンチックチャンキング後も取得コンテキストの関連性スコアは55〜65%にとどまっていた。複数の埋め込みモデルを実験した結果、Amazon Titan Embeddings G1モデルの採用により、取得コンテキストの関連性が**約55〜65%から75〜80%**に向上し、取得コンテキストの80%が以前より高い順位に配置されるようになった。

自動評価戦略

手動評価の持続可能性に懸念があり、チームは自動評価アプローチを開発した。SMEが手動でラベリングした100問のテストデータセットを作成し、ROUGEやMETEORといった従来のNLPスコアは人間評価と約30%の乖離があったため不適切と判断。LLM-as-a-Judgeアプローチを採用し、正確性、受容可能性、事実性を評価する専用プロンプトを設計した結果、人間評価との乖離を約5%まで縮小させた。

After

Amazon Finance AutomationのRAGアシスタントは、体系的な改善アプローチにより以下の定量的成果を達成した。

回答精度：49% → 86%（37ポイント向上）

3段階の改善イニシアチブを通じて、初期デプロイ時の49%から最終的に86%の精度に到達した。金融業務という高リスク領域において、この精度向上は業務の信頼性を大きく高めた。

問い合わせ対応時間：数日 → 数分

複数のポリシードキュメントを手作業で確認していた従来のプロセスが、AIアシスタントによる即時回答に置き換わった。アナリストは専門家への問い合わせを待つ必要がなくなり、顧客対応のスループットが大幅に向上した。

この取り組みは、エンタープライズRAGシステムの成熟したロードマップを示す貴重な事例である。初期デプロイで完璧を期することなく、まず体系的な評価能力を構築し、データドリブンな洞察に基づいて改善領域を優先したアプローチは、規制の厳しい環境や高リスク業務でのLLM導入に重要な示唆を与えている。86%という目標は透明に提示されており、RAGシステムの現実的な性能基準として参考になる。