Talk to My Docs: マルチソースのナレッジに対応する新しいAIエージェント

本ブログはグローバルで公開された「Talk to My Docs: A new AI agent for multi-source knowledge」の抄訳版です。

さまざまなプラットフォームに散在する膨大なドキュメントの海を航海することは、多くの場合、困難なタスクとなります。それは意思決定の遅れやインサイトの見逃しにつながることも少なくありません。組織内のナレッジやデータが増加するにつれて、適切な情報を迅速に集約・抽出できないチームは、意思決定やイノベーション、そして競争力の維持において苦戦を強いられることになるでしょう。

このブログでは、新しい「Talk to My Docs (TTMDocs)」エージェントが、ナレッジの分断(断片化)による膨大なコストに対して、どのような解決策を提供するのかを解説します。

ナレッジの分断がもたらす高いコスト

ナレッジの分断は単なる不便さにとどまりません。それは生産性に対する「隠れたコスト」であり、チームから時間とインサイトを奪い続けるものです。

  • Starmind による1,000人以上の知識労働者を対象とした調査では、従業員がこの断片化により、利用可能な知識や専門性の わずか38% しか活用できていないことが判明しました。
  • McKinsey & Associates による別の調査 では、知識労働者が Google Drive、Box、ローカルシステムなど様々なプラットフォームで必要な情報を検索することに、労働時間の4分の1以上を費やしていることが分かりました。

既存ソリューションの制約

主要なドキュメントや資料がさまざまな場所に散らばっている状況に対し、その検索プロセスを容易にするために設計されたオプションは市場にいくつか存在します。しかし、それらの多くは実際に提供できる機能に大きな制約を抱えているのが現状です。

例えば、以下のような課題があります。

  • ベンダーロックイン: ベンダーロックインは、期待される体験を著しく阻害する可能性があります。特定のベンダーがサポートする統合機能のみを厳密に使用しない限り(ほとんどの場合、これは非現実的)、接続して対話できる情報リポジトリは限定的なサブセットになってしまうのです。
  • セキュリティとコンプライアンス: セキュリティ上の考慮事項は、さらなる複雑さを加えます。あるプラットフォームやドキュメントへのアクセス権を持っていても、別のものへのアクセス権は必要ない場合があります。一歩間違えば、あるいは脆弱性を見逃せば、組織を潜在的なリスクにさらすことになりかねません。

Talk to My Docsエージェントが採用する異なるアプローチ

DataRobotの新しい Talk to My Docsエージェントは、これらとは異なるアプローチを採用しています。私たちは、エンタープライズ環境で「実際に機能する」AIソリューションを構築するために必要な開発者ツールとサポートを提供します。これはベンダーが管理するサービスとしてではなく、ニーズに合わせてカスタマイズ可能なオープンソースのテンプレートとして提供されます。

その差別化要因は明確です。TTMDocsでは以下を実現します。

  • エンタープライズレベルのセキュリティとコンプライアンスを標準搭載
  • ベンダーロックインのない、マルチソース接続
  • ゼロトラスト・アクセスコントロール(既存の権限設定を尊重)
  • DataRobotプラットフォームとの統合による完全な可観測性(オブザーバビリティ)
  • 複雑さに応じて拡張可能なマルチエージェント・アーキテクチャ
  • ブラックボックス化されたAPIではなく、完全なコードアクセスとカスタマイズ性
  • 再現可能なデプロイメントのためのInfrastructure-as-Code

Talk to My Docsエージェントの何が違うのか

Talk to My Docsエージェントは、現代のナレッジワーカーが期待する直感的で親しみやすいチャット形式の体験と、実際に必要とされる制御およびカスタマイズ性を兼ね備えた、オープンソースのアプリケーションテンプレートです。

これはサブスクリプション型のSaaS製品ではありません。開発者がデプロイし、修正し、自社のものとして活用できる、開発者フレンドリーなテンプレートなのです。

マルチソース統合と真のセキュリティ

TTMDocsは、Google Drive、Box、およびローカルファイルシステムに即座に接続可能で、SharePointやJIRAとの統合も近日中に予定されています。

  • 既存のコントロールを維持: 既存の認証情報を使用して安全に認証を処理するためのOAuth統合を標準で提供しています。管理のために並行して新たな権限構造を作成する必要はありません。Google Drive内のドキュメントを見る権限がない場合、TTMDocs上でもそれを閲覧することはできません。
  • データが存在する場所で対応: ベンダーロックインされたソリューションとは異なり、ドキュメントのエコシステムを移行する必要はありません。DataRobotのプラットフォーム上で利用可能なGoogle Drive、Box、Confluence、SharePointなどの構造化・非構造化コネクタに保存されたファイルをシームレスに活用したり、ローカルファイルをアップロードしたりすることが可能です。

スケーラブルなマルチエージェント・アーキテクチャ

TTMDocsはマルチエージェントオーケストレーションにCrewAIを使用しており、クエリの異なる側面を専門のエージェントに処理させることができます。

  • モジュール式で柔軟: モジュラーアーキテクチャを採用しているため、ニーズに合わせてLangGraphやLlamaIndexなど、好みのエージェントフレームワークに入れ替えることも可能です。
  • カスタマイズ性: エージェントによるクエリの解釈方法を変更したいですか?その場合はプロンプトを調整してください。特定のドメインタスク用のカスタムツールが必要ですか?それを追加するだけです。コンプライアンス要件がありますか?ガードレールをコードに直接組み込むことができます。
  • スケーラビリティ: ドキュメントコレクションが増え、ユースケースが複雑になるにつれて、1つのエージェントですべてを行おうとするのではなく、専門的なツールとプロンプトを備えたエージェントを追加することができます。例えば、あるエージェントが財務文書を取得し、別のエージェントが技術仕様を処理し、3番目のエージェントが機能横断的なインサイトを統合するといった構成が可能です。

エンタープライズプラットフォームとの統合

Talk to My Docsのもう一つの重要な側面は、既存のDataRobotインフラストラクチャと統合されている点です。

  • ガードレール付きRAGとLLMアクセス: このテンプレートには、制御されたドキュメント検索のためのGuarded RAG LLMモデルと、80以上のオープンソースおよびクローズドソースLLMにアクセスするためのLLM Gateway統合が含まれています。
  • 完全な可観測性: すべてのクエリがログに記録されます。すべての検索(リトリーバル)が追跡されます。すべてのエラーがキャプチャされます。つまり、DataRobotのプラットフォームを通じて完全なトレーシングと可観測性が得られ、問題が発生した際に実際にトラブルシューティングを行うことができるのです。

モダンでモジュール化されたコンポーネント

テンプレートは、個別に開発・デプロイすることも、フルスタックの一部としてデプロイすることも可能な、クリーンで独立したコンポーネントに整理されています。

コンポーネント説明
agent_retrieval_agentCrewAIを使用したマルチエージェントオーケストレーション。エージェントのコアロジックとクエリルーティングを担当。
core共有Pythonロジック、共通ユーティリティ、および関数。
frontend_webユーザーインターフェース用のReactおよびViteウェブフロントエンド。
webFastAPIバックエンド。APIエンドポイント、認証、通信を管理。
infraクラウドリソースをプロビジョニングするためのPulumi Infrastructure-as-Code。

専門化の力:Talk to My Docsエージェントのユースケース

ここでのパターンは、セキュリティと可観測性が組み込まれた状態で、既存のドキュメントソース全体にわたり連携して動作する「実用化された専門エージェント」です。

以下に、エンタープライズにおける適用例をいくつか紹介します。

  • M&Aデューデリジェンス: 財務諸表(Box)、法的契約書(Google Drive)、技術文書(ローカルファイル)を相互参照します。権限構造により、機密資料は担当チームのみが閲覧できるよう保証されます。
  • 臨床試験ドキュメント: 試験プロトコルが何百もの文書にわたって規制ガイドラインと整合していることを検証し、提出前に不一致を特定します。
  • 法的ディスカバリー(証拠開示): プラットフォーム全体に散らばる数年分のメール、契約書、メモを検索し、厳格なアクセス制御を尊重しつつ、関連資料や特権資料を特定します。
  • 製品リリースの準備: マーケティング資料、規制当局の承認、サプライチェーン文書が地域全体で整合しており、認証によって裏付けられているかを確認します。
  • 保険金請求調査: 保険証券、査定人のメモ、第三者の評価を引き出し、補償条件を相互参照して潜在的な不正・詐欺の兆候を特定します。
  • 研究助成金コンプライアンス: 予算書類、発注書、助成金契約を相互参照し、監査前に潜在的なコンプライアンス問題を特定します。

ユースケース:臨床試験ドキュメント

課題

FDA申請を準備しているバイオテクノロジー企業は、複数のシステムに散在する文書に苦しんでいます。FDAのガイダンスはGoogle Driveに、試験プロトコルはSharePointに、実験報告書はBoxに、品質手順書はローカルに保存されています。核心的な問題は、提出や査察の前に、すべてのドキュメント(プロトコル、安全性、品質)間での整合性を確保することであり、これには迅速かつ統一されたビューが必要です。

TTMDocsがどのように役立つか

この企業は、カスタマイズされたヘルスケア規制エージェントを導入します。これは、すべてのドキュメントソースにまたがる複雑なコンプライアンスの質問に回答できる統合システムです。

規制エージェント:

特定の医薬品候補に適用されるFDAの提出要件を特定します。

Talk to My Docsエージェント1
臨床レビューエージェント:

患者の安全性と研究倫理に関する業界基準に照らして試験プロトコルをレビューします。

Talk to My Docsエージェント2
安全性コンプライアンスエージェント:

安全性モニタリングと有害事象報告手順がFDAのタイムラインを満たしているかチェックします。

Talk to My Docsエージェント3

結果

規制チームのメンバーが「提出のために何が必要ですか?また、我々の安全性モニタリング手順は基準を満たしていますか?」と尋ねます。

ドキュメントを収集し要件を相互参照するために何日も費やす代わりに、彼らは数分以内に構造化された回答を得ることができます。システムは提出経路を特定し、安全性手順における3つの優先度の高いギャップを特定し、品質ドキュメントに関する2つの問題を指摘し、さらに具体的なタイムラインを伴う優先順位付きのアクションプランを提示します。

注目すべきポイント:実現するコード

TTMDocsを理解する最良の方法は、実際のコードを見ることです。リポジトリは完全にオープンソースであり、Githubで利用可能です。

探索を始めるための主要な箇所は以下の通りです。

  • エージェントアーキテクチャ (agent_retrieval_agent/custom_model/agent.py): CrewAIがどのように異なるエージェントを調整するか、プロンプトがどのように構造化されているか、そしてカスタム動作をどこに注入できるかを確認できます。
  • ツール統合 (agent_retrieval_agent/custom_model/tool.py): エージェントが外部システムとどのように対話するかを示しています。これは、内部APIへのクエリやドメイン固有のファイル形式を処理するためのカスタムツールを追加する場所です。
  • OAuthとセキュリティ (web/app/auth/oauth.py): Google DriveやBoxでの認証がどのように機能し、ユーザー権限がシステム全体でどのように維持されるかを確認できます。
  • Webバックエンド (web/app/): すべてを結びつけるFastAPIアプリケーションです。フロントエンドがエージェントとどのように通信し、会話がどのように管理されるかを確認できます。

エンタープライズAIの未来はオープン

エンタープライズAIは転換点にあります。エンドユーザー向けのAIツールができることと、企業が実際に必要としていることとのギャップは広がっています。セキュリティ、コンプライアンス、統合といったエンタープライズ要件を妥協できない場合、「そこそこ良い」コンシューマー向けAI製品は、解決する以上の問題を引き起こすことに企業は気づき始めています。

未来は、利便性とコントロールのどちらかを選ぶものではありません。その両方を手に入れることにあるのです。Talk to My Docsは、パワーと柔軟性の両方をあなたの手に委ね、信頼できる結果をもたらします。

コードはあなたのものです。可能性は無限大です。

その違いを体験してください。今すぐ構築を始めましょう。

DataRobotのアプリケーションテンプレートを使用すれば、硬直的なブラックボックスシステムに閉じ込められることはありません。自分の条件に適応し、実験し、革新するための柔軟な基盤を手に入れてください。既存のワークフローを改善する場合でも、新しいAI搭載アプリケーションを作成する場合でも、DataRobotは前進するための明確さと自信を提供します。

14日間の無料トライアルで、可能性を探り始めましょう。

AI で迅速にビジネス価値向上を実現。今すぐ始めましょう。