建構 Agent 原生辦公室：來自 Datadog 的教訓

從示範到正式營運的 AI Agent 擴展

將 AI Agent 從少數原型擴展到「Agent 原生辦公室」需要將焦點從純粹的智慧（已不再是主要瓶頸）轉向基礎設施、耐久性與評估。對企業而言，目標是超越「好看的示範」，打造一支自我修復、雲端部署的 Agent 群組，能在 SRE、開發與安全等多樣工作負載中運作。

Datadog 已實作三種主要的 Agent 類型，以自動化核心運維任務：

要將規模擴展至數百個 Agent，組織必須拋棄簡單的聊天介面，轉向結構化、以 Agent 為先的運營模型。

使用者體驗設計必須演進為將自動化 Agent 視為一等公民。這意味著要超越以人類為中心的視覺呈現，提供對 Agent 友善的介面。

關鍵實作包括：

聊天是與客戶互動的有用模式，但不應成為企業 Agent 的主要觸發點。大多數 Agent 應該是 主動且事件驅動 的，於背景執行，並由系統事件而非人工指令觸發。

為確保這些背景 Agent 的可靠性，建議採取以下措施：

在缺乏強大評估框架的情況下建置 Agent，會導致「感覺編碼」——開發者在不確定 Agent 是否真的有改進的情況下隨意調整工具。完整的 Eval 系統需要三個階段：

在 Agent 的語境中，「苦澀教訓」是指通用方法（利用現成模型）最終會勝過高度客製、手工調校的 Agent 邏輯。隨著模型能力不斷跳躍式提升，特定的微調往往會變得過時。

因為「鋸齒式智慧」——最佳的通用模型未必是特定任務的最佳選擇——組織應該：

保持模型中立：根據評估數據快速切換模型。
保持框架中立：避免自上而下規定使用哪個框架（如 LangGraph、OpenAI Agents、Pydantic），讓團隊能自行實驗最適合其工作負載的工具。
善用記憶：使用記憶 Agent 從可觀測性軌跡中抽取語意知識與上下文，確保即使底層模型更換，改進仍能保留下來。

多人協作功能正從「螢幕上多隻滑鼠」轉向人與 Agent、Agent 與 Agent 之間的合作。

摘要： Datadog 的 Diamond Bishop 提出一套從少數 AI Agent 擴展至數百個的框架，強調以 Agent 為先的使用者體驗、事件驅動的架構以及嚴謹的評估系統。

標題：建構 Agent 原生辦公室：來自 Datadog 的教訓