构建 Agent 原生办公环境：来自 Datadog 的经验教训

将 AI Agent 从演示转向生产环境

将 AI agent 从几个原型扩展到“agent 原生办公环境”需要将重心从原始智能（这已不再是主要瓶颈）转向基础设施、持久性和评估。对于企业而言，目标是超越“漂亮的演示”，转向一组能够处理 SRE、开发和安全领域多样化工作负载的、具备自我修复能力且部署在云端的 agent 舰队。

Datadog 实施了三种主要的 agent 类型来自动化核心运维任务：

要扩展到数百个 agent，组织必须从简单的聊天界面转向结构化的、以 agent 为先的运维模型。

用户体验设计必须演进，将自动化 agent 视为一等公民用户。这涉及超越以人为中心的可视化，提供对 agent 友好的界面。

关键实现包括：

Agent 友好型界面: 采用 MCP (Model Context Protocol)、APIs 和技能（skills）作为向客户提供的每项功能的标准。
文档优化: 为文档提供 .md 支持，并实现 llms.txt 以使信息易于被 LLM 消费。
内部验证: 团队应定期使用 agent 执行其自身任务，以确保界面对于非人类用户而言是功能完备且直观的。

聊天是一种有用的客户交互方式，但不应成为企业级 agent 的主要触发方式。大多数 agent 应该是主动的且事件驱动的，在后台运行并由系统事件而非人类提示词触发。

为了确保这些后台 agent 足够可靠，建议采取以下措施：

在没有强大的评估框架的情况下构建 agent 会导致“氛围编程 (vibe coding)”，即开发者在不知道 agent 是否真的在改进的情况下不断调整工具。一个稳健的 eval 系统需要三个阶段：

在 agent 的语境下，“苦涩教训”是指利用现成模型的一般性方法将战胜高度定制化、手工调优的 agent 逻辑。随着模型能力的飞跃，特定的微调往往会变得过时。

由于存在“锯齿状智能 (jagged intelligence)”——即最强的通用模型可能并不适合特定任务——组织应当：

保持模型无关性: 根据评估数据快速更换模型的能力。
保持框架无关性: 避免对使用哪种框架（例如 LangGraph, OpenAI Agents, Pydantic）下达自上而下的指令，允许团队针对其特定工作负载实验最合适的工具。
利用记忆 (Memory): 使用记忆 agent 来从可观测性轨迹中提取语义知识和上下文，确保即使在更换底层模型时，也能保留改进成果。

多人功能正在从“屏幕上的多个鼠标”转向人类与 agent 之间的协作，以及 agent 之间的协作。

在岗学习 (Learning on the Job): 企业级 AI 向强化学习 (RL) 转型，其中 agent 根据真实世界的结果进行改进。
合成环境 (Synthetic Environments): 为特定产品创建“世界模型”——即服务的合成版本，其中 agent 可以在模拟的人类行为中进行训练和测试。
长程规划 (Long-Horizon Planning): 从持续几分钟的任务转向能够执行持续数天的持久化 agent。
Generative UI: 涌现出针对当前可观测性任务的具体需求而即时、定制化生成的 UI 界面。 }],