エージェント・ネイティブ・オフィスの構築:Datadog からの教訓

エージェント・ネイティブ・オフィスの構築:Datadog からの教訓

デモから本番へ AI エージェントをスケールする

数個のプロトタイプから「エージェント・ネイティブ・オフィス」へ AI エージェントをスケールさせるには、もはや主要なボトルネックでなくなった単なる知能から、インフラストラクチャ、耐久性、評価へと焦点をシフトする必要があります。企業にとっての目標は「見た目がかっこいいデモ」から、SRE、開発、セキュリティにわたる多様なワークロードを処理する自己修復型のクラウド展開エージェント群へと移行することです。

Datadog エージェントの三位一体

Datadog はコア運用タスクを自動化するために、以下の 3 つの主要エージェントタイプを実装しています:

  • AI SRE エージェント:システム問題を自動的にデバッグし、Site Reliability Engineering チームの手作業負荷を軽減します。
  • AI Dev エージェント(Bits AI Dev):システム内で特定されたエラーや問題を修正するためにコードを書き、開発します。
  • Security Analyst エージェント:SIM 製品内の疑わしいシグナルを調査し、セキュリティ問題が実在するかどうかを判断し、初期トリアージプロセスを自動化します。

エージェント・ネイティブ・インフラの基本原則

数百のエージェントにスケールするためには、シンプルなチャットインターフェースから離れ、構造化されたエージェント優先の運用モデルへと移行する必要があります。

エージェント優先 UX と「新しい Bezos 命令」

ユーザーエクスペリエンス設計は、オートメーションエージェントを第一級のユーザーとして扱うように進化しなければなりません。これは、人間中心のビジュアルを超えて、エージェントにとって使いやすいインターフェースを提供することを意味します。

主な実装例は次のとおりです:

  • エージェントフレンドリーなインターフェース:MCP(Model Context Protocol)や API、スキルなど、顧客に提供するすべての機能に対して標準化を採用します。
  • ドキュメント最適化.md 形式でのドキュメントサポートを提供し、llms.txt を実装して情報を LLM が容易に消費できるようにします。
  • 内部検証:チームは定期的にエージェントを使って自分たちのタスクを実行し、インターフェースが非人間ユーザーにとって機能的かつ直感的であることを確認します。

プロアクティブでイベント駆動型のアーキテクチャ

チャットは顧客との対話に有用なモダリティですが、エンタープライズエージェントの主要なトリガーにすべきではありません。ほとんどのエージェントは プロアクティブかつイベント駆動型 であり、バックグラウンドで実行され、人間からのプロンプトではなくシステムイベントによって起動されるべきです。

バックグラウンドエージェントの信頼性を確保するために推奨される事項は次のとおりです:

  • 耐久性レイヤー:Temporal などのツールを使用して、エージェントがタイムアウトや障害から回復できるようにします。
  • サンドボックス化:データ損失や不正なシステム変更を防ぐために、エージェントを適切に分離します。

評価(Eval)の厳格さ

強固な評価フレームワークなしにエージェントを構築すると「バイブコーディング」になりがちです。開発者はツールを微調整しても、エージェントが実際に改善されているかどうかが分からなくなります。堅牢な評価システムには 3 つの段階が必要です:

  1. オフライン Eval:代表的で測定可能、かつ再実行可能なデータセットを使用して変更をテストします。
  2. オンライン Eval:観測データを用いて、エージェントが実運用でどのように動作しているかをモニタリングします。
  3. 継続的フィードバックループ:実際のインタラクション痕跡を定期的にオフラインデータセットに取り込み、顧客行動やモデル性能のドリフトに対応します。

エージェントの「苦い教訓」

エージェントに関しての「苦い教訓」は、汎用的なオフ・ザ・シェルフモデルを活用した一般的手法が、手作業で高度にカスタマイズされたエージェントロジックに勝るということです。モデルの能力が飛躍的に向上するにつれて、特定の微調整はしばしば時代遅れになります。

モデル・フレームワークの非依存性

「ジグザグな知能」――最適な汎用モデルが必ずしも特定タスクに最適でない状況――を考慮し、組織は次のことを行うべきです:

  • モデル非依存を保つ:評価データに基づき、モデルを迅速に入れ替えることに慣れておく。
  • フレームワーク非依存を保つ:LangGraph、OpenAI Agents、Pydantic など、どのフレームワークを使用すべきか上からの指示を出さず、チームが自分たちのワークロードに最適なツールを実験できるようにする。
  • メモリ活用:メモリエージェントを用いて観測トレースから意味的知識とコンテキストを抽出し、基盤モデルを入れ替えても改善が保持されるようにする。

エージェント協調の未来

マルチプレイヤー機能は「画面上の複数マウス」から、人間とエージェント、そしてエージェント同士の協調へとシフトしています。

  • ヒューマン‑エージェント協調:ターミナル共有や音声・リアルタイムインタラクションを活用した高帯域インタラクションへ移行します。
  • エージェント‑ツー‑エージェント通信:エージェントが安全に情報を共有し合い、相互にトリガーできるよう、制限された EKS クラスターなどのセキュアエンクレーブを構築します。
  • 知識共有:チームメンバーがエージェントで使用するツールやスキルを共有・リミックスできる「スキルハブ」や MCP ハブを作ります。

エンタープライズ AI の将来予測

  • オン・ザ・ジョブ学習:企業内で強化学習(RL)へのシフトが進み、エージェントは実世界の結果に基づいて改善されます。
  • 合成環境:特定製品向けの「ワールドモデル」―サービスの合成版―を作り、エージェントが人間行動をモデル化した環境で訓練・テストできるようにします。
  • 長期計画:数分で完了するタスクから、数日間にわたるワークフローを実行できる耐久エージェントへと移行します。
  • 生成 UI:現在の観測タスクの具体的ニーズに合わせて、その場でカスタム生成されるユーザーインターフェースが登場します。

要約: Datadog の Diamond Bishop は、数個の AI エージェントから数百にスケールするためのフレームワークを提示し、エージェント優先 UX、イベント駆動型アーキテクチャ、そして厳格な評価システムの重要性を強調しています。

タイトル: エージェント・ネイティブ・オフィスの構築:Datadog からの教訓

Sources