HP：Databricks Mosaic AIでデータチームの生産性を革新、インフラコスト30%削減

Before

HPは1939年創業の老舗テクノロジー企業であり、世界200万台以上のプリンターの機能を支えるグローバルリーダーである。しかし、そのビッグデータプラットフォーム部門では、非技術系ユーザーのデータ発見・分析アクセスが大きなボトルネックとなっていた。PC、プリンター、Web・モバイルアプリからの膨大なデータ量に加え、プラットフォーム上の多数のパートナー・顧客の存在により、データ利用者が必要な情報に到達するまでに手動の介入が必要な状況が常態化していた。

データエンジニアリングチームは、特定のデータモデルやプラットフォーム機能に関する問い合わせに対応するために、 勤務時間の20〜30% をSQLクエリの作成、データの掘り下げ、複数領域のクロスリファレンスに費やしていた。5人チームで換算すると、これは追加で1名分のフルタイム工数に相当する。制限付きデータへのアクセス申請から新入社員のオンボーディングまで、あらゆる問い合わせがデータサイエンスマネージャーWilliam Maのチームに集中していた。

さらに、リーダーシップ層が戦略的意思決定に使用する使用状況分析や予算分析ダッシュボードの構築にもデータチームの支援が必要だった。データチームには常に帯域がなく、リクエスト対応に遅延が生じることでリアルタイムの意思決定が阻害されていた。また、データをレガシーデータウェアハウスからAIツールを適用できるワークスペースに移動する際、データのコピー作成や、DSR（データ主体性権利）対応などのプライバシーガバナンスの複雑さが重なり、コストと工数をさらに押し上げていた。

この状況下で、HPは生成AIを活用してデータの壁を取り除き、インテリジェントな意思決定を加速させることを決意した。

AI導入内容

HPは自社データセンターからの移行に伴い、AWS上でDatabricks Data Intelligence Platformを導入した。レイクハウスアーキテクチャを活用してデータ、分析、AIを統一し、従来のAWS RedshiftからDatabricks SQLへの移行を実現した。William Maは「Databricksはデータ中心のアプローチで、AIと分析、GenAIツールを単一プラットフォーム上に提供する」と述べている。

RAGベースナレッジチャットボットの構築

HPの最初の生成AIユースケースは、データユーザーのオンボーディング支援であった。社内Wiki、SharePointファイル、チームサポートチャネルに散在していた情報を統合するため、Vector SearchデータベースをバックエンドとしたRAG（検索拡張生成）ソリューションを実装した。

システム構成は以下の通りである。

フロントエンドとバックエンドエージェント ユーザーの入力を解析し、関連データを検索・取得してからGenAIエンドポイントに送信し回答を生成するエージェントアーキテクチャを採用。Agent Bricks AI Playgroundを使用して複数のLLMを実験した結果、コスト効率と性能のバランスからDBRXをチャットボット用のモデルとして選択した。

WebクローラーとVector Search 各種社内サイトの情報をクロール・トークナイズし、Vector Searchデータベースに格納する仕組みを構築。データベースエントリと生成された回答には参照URLが含まれ、ユーザーは回答の検証や追加探索が可能である。

Databricks Mosaic AIを活用することで、チームのインターンが3週間未満でエンドツーエンドのソリューションを実装した。Maは「他のチームでは経験豊富なスタッフエンジニアが他プラットフォームで数か月かけて構築した類似ソリューションと比較して、驚くほど高速に開発できた」と評価している。

AI/BI Genieによるセルフサービス分析

ナレッジチャットボットに続き、HPはAI/BI Genieを活用したセルフサービス分析環境の構築を進めている。非技術系ユーザーが自然言語でデータに問い合わせ、データビジュアライゼーションを容易に作成できる機能である。頻出質問に対するプリセットクエリを用意したGenieワークスペースを共有することで、データエンジニアへの手動SQL支援を大幅に削減する見込みである。

セキュリティとガバナンス基盤

Unity Catalogを使用して600名以上のDatabricksユーザーに対する細粒度のアクセス制御を実現。データのリネージと監査機能も確保し、セキュリティとプライバシーのガバナンス要件を満たしている。Serverless Databricks SQLにより、オンデマンドでエフェメラルなコンピュートクラスタをプロビジョニングし、必要な時だけリソースを使用する効率的な運用を行っている。

After

Databricks Data Intelligence Platformへの移行により、HPは以下の定量的・定性的な成果を達成した。

インフラコスト：AWS Redshift時と比較して20〜30%削減

Databricks SQLへの移行により、従来のAWS Redshiftデータウェアハウスと比較して20〜30%の運用コスト削減を実現した。Serverlessコンピュートと統合データカタログによるリソース最適化が、コスト効率の改善に大きく貢献している。

データチームの生産性向上

RAGベースのナレッジチャットボットの導入により、データエンジニアが対応に費やしていた20〜30%の工数が解放された見込みである。パートナーからの繰り返し問い合わせが自動化され、データチームはより戦略的な課題解決に注力できるようになった。特に新入社員のオンボーディング期間の短縮は、組織全体の生産性向上に波及している。

意思決定の迅速化

AI/BI Genieによる自然言語クエリ機能により、ビジネスリーダーが必要な情報をデータエンジニアに依存することなくリアルタイムに取得できるようになった。ダッシュボード作成のためのリードタイムが短縮され、データ駆動型の意思決定が現場レベルで加速している。

今後の展望

HPはGenAIソリューションの適用範囲を顧客向けトラブルシューティング・クエリ解決プロセスへの拡大を計画している。データチームがGenAIでさらなる課題解決に取り組む中、Databricks Data Intelligence Platformは基盤として継続的に進化し続ける。Maは「Databricksと8年間協働してきたが、このプラットフォームは常に改善されている。今後もチーム、パートナー、顧客の支援をより良くするソリューションを構築し続けたい」と締めくくっている。