Whatnot：生成AIでトラスト＆セーフティを強化し詐欺検出率95%達成

Before

Whatnotは、世界で最も急速に成長しているマーケットプレイスの一つであり、ライブストリームショッピングプラットフォームとして社会商取引の未来を構築している。成長の加速に伴い、プラットフォームの安全性を維持し、コミュニティが情熱を共有できる信頼できる環境を保つことが喫緊の課題となった。

当初、Whatnotは一元化されたルールエンジンを基盤として施策適用を行っていた。このエンジンは、複数のソースからデータとシグナルを収集し、データに基づいたヒューリスティクスを適用して違反の有無を判定する。配送遅延管理、返金処理、キャンセル対応など、データ関連の執行には特に効果的だった。

しかし、ルールエンジンには根本的な限界があった。スカラー値の範囲内でしか動作せず、曖昧なシナリオや文脈的理解には対応できなかった。従来のMLは個別のメッセージを孤立して評価するアプローチであり、ハラスメントや詐欺などの複雑なトピックの文脈を理解するには不十分だった。

特に詐欺の脅威が増大していた。活発なコミュニティは詐欺師の標的ともなり、特にプラットフォームのポリシーに精通していない新規ユーザーが狙われていた。詐欺の試みは、通常、販売中の商品について問い合わせたり、Giveawayに当選したと通知したりする無害なDMから始まる。親しいやり取りを通じて信頼を構築した後、プラットフォーム外に会話を誘導しようとするのが一般的なパターンだった。

単一のメッセージだけで詐欺の確率を予測することは非常に困難で精度が低かった。しかし、会話全体を見ればパターンは明らかになる。この文脈理解こそが、従来のルールベースシステムでは対処できなかった根本的な課題だった。

AI導入内容

Whatnotは、LLMの進化を活用してルールエンジンを「Rule Engine++」として強化した。単一メッセージの評価を超えて、ユーザーの相互作用と会話全体の文脈を広く理解するアプローチを採用した。

詐欺検出の仕組み

シグナルの収集と選定

メッセージングパターン、アカウント経過日数などの異なるユーザーシグナルを選定基準として使用し、どのメッセージをLLMで分析すべきかを決定する。アカウントがフラグ付けされると、複数のメッセージをLLMに通して悪意のあるメッセージである確率を判定する。

LLMプロンプト設計

詐欺の可能性を特定するプロンプトには以下が含まれる。

調査対象ユーザーのID
ユーザーがDMで送信したメッセージ
タイムスタンプ・送信者ID・メッセージで構成されるユーザ間の相互作用
プラットフォームで頻繁に発生する既知の詐欺パターン

LLMはJSON形式で scam_likelihood（0〜1）と explanation（推論理由）を出力する。

ルールエンジンとの連携

LLMの出力に加えて、アカウント経過日数、メッセージ頻度、累計注文数などの追加シグナルをルールエンジンに提供する。

scam_likelihood > 0.6 AND account_age < X days AND message_frequency > Y AND lifetime_orders < Z

条件を満たした場合、一時的に特定機能を無効化し、オペレーションチームに通知して調査・アクションを依頼する。

マルチモーダル対応

詐欺師は頻繁に戦術を変更し、テキストメッセージではなく画像にテキストを埋め込む手法も使用するようになった。これに対し、OCRをメッセージ添付ファイルに追加し、そのテキストをLLMへの追加入力として使用することで対抗した。

Trust and Safety LLM Stack

T&S（Trust and Safety）スタックは3フェーズに分かれる。

Gather（収集）：イベントデータ、ユーザーデータ、注文履歴、MLモデル出力など、様々なソースからデータをキュレーション。データの特定、フィルタリング、アノテーション、フォーマット化を実施。

Evaluate（評価）：キュレートされたデータにLLMを適用。生データとLLMインサイト（scam_likelihood、spam_likelihoodなど）をスカラー値としてルールエンジンに渡し、執行マトリクスに基づく次のステップを推奨する。現在はゼロショットと少数ショット学習に依存しており、サポート関連のユースケースではファインチューニングにも投資している。

Enforce（執行）：3つの執行オプションを持つ。Close（高い信頼性で違反検出なし）、Act（高い信頼性で違反発見）、Escalate（違反検出に自信がないため人間レビューが必要）。ルールエンジンは過去の違反、アカウント経過日数などを考慮してアクション（警告、停止など）を推奨し、確定後にユーザーに通知し、Kafkaを通じてシステムを更新する。

Human-in-the-Loop

Whatnotは、Gen AIを「認知パートナー」として位置づけ、AI駆動のインサイトと人間の判断を組み合わせたヒューマン・AIパートナーシップを目指している。LLMは思慮深い協力者として機能し、評価と安全プロトコルを強化する。

After

生成AIを推論エージェントとして導入したことで、Whatnotのプラットフォームの信頼性と安全性が大幅に向上した。

詐欺検出率：95%以上

自動検出により、プラットフォーム上の95%以上の詐欺試行を数分以内に事前検出できるようになった。LLM出力では96%の精度と高いリコールを達成。メッセージングが頻繁に調整される中で、LLMが異なるメッセージングパターンに適応する能力は期待を超えた。

マルチモーダル詐欺への対応

画像に埋め込まれたテキストをOCRで抽出しLLMに入力することで、テキストベースの検出だけでは捉えられない詐欺手法にも対応。このフローは、プラットフォーム外取引やハラスメントなど、他のポリシー執行にも拡大された。

運用効率の向上

ルールエンジンとLLMの組み合わせにより、オペレーションチームが手作業で確認しなければならないケースが大幅に減少。高い信頼性で自動執行できるケースと、人間レビューが必要なケースを明確に分離できた。

スケーラブルなモデレーション

マーケットプレイスの成長に伴い、コンテンツの増加に比例して人間モデレーターを増やす必要がなくなった。LLMによる初段のスクリーニングにより、人間の専門知識はより複雑で高度な判断に集中できるようになった。

将来の展望

Whatnotは、ルールエンジンと執行がシームレスに統合された統一Gen AIシステムへの進化を見据えている。現在の Gather → Evaluate → Enforce の3段階アーキテクチャが、より洗練されたエンドツーエンドのAI駆動セーフティシステムに進化していく計画だ。

Whatnotの取り組みは、ライブコマースというリアルタイム性が高いマーケットプレイスにおいて、LLMの文脈理解能力を活用して詐欺や有害コンテンツを検出する先進的モデルを示している。特に、単一メッセージではなく会話の文脈全体を分析するアプローチは、他のSNSやコミュニケーションプラットフォームのセーフティ対策にも応用可能なフレームワークとなっている。