建構 Agent 原生辦公室:來自 Datadog 的教訓

建構 Agent 原生辦公室:來自 Datadog 的教訓

從示範到正式營運的 AI Agent 擴展

將 AI Agent 從少數原型擴展到「Agent 原生辦公室」需要將焦點從純粹的智慧(已不再是主要瓶頸)轉向基礎設施、耐久性與評估。對企業而言,目標是超越「好看的示範」,打造一支自我修復、雲端部署的 Agent 群組,能在 SRE、開發與安全等多樣工作負載中運作。

Datadog Agent 三位一體

Datadog 已實作三種主要的 Agent 類型,以自動化核心運維任務:

  • AI SRE Agent:自動除錯系統問題,減輕 Site Reliability Engineering 團隊的人工負擔。
  • AI Dev Agent(Bits AI Dev):撰寫並開發程式碼,專門修復系統內部偵測到的錯誤與問題。
  • Security Analyst Agent:在 SIM 產品中調查可疑訊號,判斷是否為真實的安全議題,並自動化初步分流流程。

Agent 原生基礎設施的核心原則

要將規模擴展至數百個 Agent,組織必須拋棄簡單的聊天介面,轉向結構化、以 Agent 為先的運營模型。

Agent 為先的使用者體驗與「新 Bezos 授令」

使用者體驗設計必須演進為將自動化 Agent 視為一等公民。這意味著要超越以人類為中心的視覺呈現,提供對 Agent 友善的介面。

關鍵實作包括:

  • Agent 友善介面:採用 MCP(Model Context Protocol)、API 與技能等標準,為提供給客戶的每項功能建立一致介面。
  • 文件最佳化:提供 .md 支援的文件,並實作 llms.txt,讓資訊能輕鬆被 LLM 消化。
  • 內部驗證:團隊應定期使用 Agent 完成自己的任務,以確保介面對非人類使用者同樣可用且直觀。

主動式、事件驅動的架構

聊天是與客戶互動的有用模式,但不應成為企業 Agent 的主要觸發點。大多數 Agent 應該是 主動且事件驅動 的,於背景執行,並由系統事件而非人工指令觸發。

為確保這些背景 Agent 的可靠性,建議採取以下措施:

  • 耐久層:使用 Temporal 等工具確保 Agent 具備耐久性,能從逾時或失敗中復原。
  • 沙箱化:適當隔離 Agent,防止資料遺失或未授權的系統變更。

評估的嚴謹性(Eval)

在缺乏強大評估框架的情況下建置 Agent,會導致「感覺編碼」——開發者在不確定 Agent 是否真的有改進的情況下隨意調整工具。完整的 Eval 系統需要三個階段:

  1. 離線 Eval:使用具代表性、可量化且可重現的資料集測試變更。
  2. 線上 Eval:利用可觀測性資料監控 Agent 在實際環境中的表現。
  3. 持續回饋迴路:定期將真實世界的互動軌跡拉回離線資料集,以因應客戶行為或模型效能的漂移。

Agent 的「苦澀教訓」

在 Agent 的語境中,「苦澀教訓」是指通用方法(利用現成模型)最終會勝過高度客製、手工調校的 Agent 邏輯。隨著模型能力不斷跳躍式提升,特定的微調往往會變得過時。

模型與框架的中立性

因為「鋸齒式智慧」——最佳的通用模型未必是特定任務的最佳選擇——組織應該:

  • 保持模型中立:根據評估數據快速切換模型。
  • 保持框架中立:避免自上而下規定使用哪個框架(如 LangGraph、OpenAI Agents、Pydantic),讓團隊能自行實驗最適合其工作負載的工具。
  • 善用記憶:使用記憶 Agent 從可觀測性軌跡中抽取語意知識與上下文,確保即使底層模型更換,改進仍能保留下來。

Agent 協作的未來

多人協作功能正從「螢幕上多隻滑鼠」轉向人與 Agent、Agent 與 Agent 之間的合作。

  • 人‑Agent 協作:朝高頻寬互動前進,例如共享終端機、使用語音或即時互動指導 Agent。
  • Agent‑to‑Agent 通訊:建立安全隔離區(例如受限的 EKS 叢集),讓 Agent 能安全共享資訊並相互觸發。
  • 知識共享:打造「技能中心」或 MCP 中心,讓團隊成員能分享與 remix 各自 Agent 使用的工具與技能。

企業 AI 的未來預測

  • 在職學習:企業將轉向強化學習(RL),讓 Agent 依據真實結果持續改進。
  • 合成環境:為特定產品建立「世界模型」——服務的合成版本,讓 Agent 能在模擬的人類行為下訓練與測試。
  • 長期規劃:從以分鐘為單位的任務,過渡到能執行數天工作流程的耐久 Agent。
  • 生成式 UI:即時產生、客製化的使用者介面,針對當前可觀測性任務的特定需求量身打造。

摘要: Datadog 的 Diamond Bishop 提出一套從少數 AI Agent 擴展至數百個的框架,強調以 Agent 為先的使用者體驗、事件驅動的架構以及嚴謹的評估系統。

標題: 建構 Agent 原生辦公室:來自 Datadog 的教訓

Sources