构建 Agent 原生办公环境:来自 Datadog 的经验教训
构建 Agent 原生办公环境:来自 Datadog 的经验教训
将 AI Agent 从演示转向生产环境
将 AI agent 从几个原型扩展到“agent 原生办公环境”需要将重心从原始智能(这已不再是主要瓶颈)转向基础设施、持久性和评估。对于企业而言,目标是超越“漂亮的演示”,转向一组能够处理 SRE、开发和安全领域多样化工作负载的、具备自我修复能力且部署在云端的 agent 舰队。
Datadog Agent 三重奏
Datadog 实施了三种主要的 agent 类型来自动化核心运维任务:
- AI SRE Agent: 自动调试系统问题,减轻站点可靠性工程(SRE)团队的手动负担。
- AI Dev Agent (Bits AI Dev): 专门编写和开发代码以修复系统中识别出的错误和问题。
- Security Analyst Agent: 调查 SIM 产品中的可疑信号,以确定安全问题是否真实存在,从而实现初始分拣过程的自动化。
Agent 原生基础设施的核心原则
要扩展到数百个 agent,组织必须从简单的聊天界面转向结构化的、以 agent 为先的运维模型。
Agent 为先的 UX 和“新 Bezos Mandate"
用户体验设计必须演进,将自动化 agent 视为一等公民用户。这涉及超越以人为中心的可视化,提供对 agent 友好的界面。
关键实现包括:
- Agent 友好型界面: 采用 MCP (Model Context Protocol)、APIs 和技能(skills)作为向客户提供的每项功能的标准。
- 文档优化: 为文档提供
.md支持,并实现llms.txt以使信息易于被 LLM 消费。 - 内部验证: 团队应定期使用 agent 执行其自身任务,以确保界面对于非人类用户而言是功能完备且直观的。
主动式、事件驱动型架构
聊天是一种有用的客户交互方式,但不应成为企业级 agent 的主要触发方式。大多数 agent 应该是主动的且事件驱动的,在后台运行并由系统事件而非人类提示词触发。
为了确保这些后台 agent 足够可靠,建议采取以下措施:
- 持久性层 (Durability Layers): 使用 Temporal 等工具来确保 agent 是持久的,并且能够从超时或故障中恢复。
- 沙箱机制 (Sandboxing): 对 agent 进行适当的隔离,以防止数据丢失或未经授权的系统更改。
评估的严谨性 (Eval)
在没有强大的评估框架的情况下构建 agent 会导致“氛围编程 (vibe coding)”,即开发者在不知道 agent 是否真的在改进的情况下不断调整工具。一个稳健的 eval 系统需要三个阶段:
- 离线评估 (Offline Eval): 使用具有代表性、可衡量且可重复运行的数据集来测试变更。
- 在线评估 (Online Eval): 使用可观测性数据来监控 agent 在实际环境中的表现。
- 持续反馈循环: 定期将真实的交互轨迹(traces)拉回到离线数据集中,以应对客户行为或模型性能的漂移。
Agent 的“苦涩教训 (Bitter Lesson)"
在 agent 的语境下,“苦涩教训”是指利用现成模型的一般性方法将战胜高度定制化、手工调优的 agent 逻辑。随着模型能力的飞跃,特定的微调往往会变得过时。
模型与框架无关性
由于存在“锯齿状智能 (jagged intelligence)”——即最强的通用模型可能并不适合特定任务——组织应当:
- 保持模型无关性: 根据评估数据快速更换模型的能力。
- 保持框架无关性: 避免对使用哪种框架(例如
LangGraph,OpenAI Agents,Pydantic)下达自上而下的指令,允许团队针对其特定工作负载实验最合适的工具。 - 利用记忆 (Memory): 使用记忆 agent 来从可观测性轨迹中提取语义知识和上下文,确保即使在更换底层模型时,也能保留改进成果。
Agent 协作的未来
多人功能正在从“屏幕上的多个鼠标”转向人类与 agent 之间的协作,以及 agent 之间的协作。
- Human-Agent 协作: 转向高带宽交互,例如共享终端或使用语音和实时交互来引导 agent。
- Agent-to-Agent 通信: 建立安全隔离区(例如受限的 EKS 集群),使 agent 可以安全地共享信息并触发彼此。
- 知识共享: 创建“技能中心 (skills hubs)”或 MCP hubs,使团队成员可以分享和重新组合其 agent 使用的工具和技能。
企业级 AI 的未来预测
在岗学习 (Learning on the Job): 企业级 AI 向强化学习 (RL) 转型,其中 agent 根据真实世界的结果进行改进。
合成环境 (Synthetic Environments): 为特定产品创建“世界模型”——即服务的合成版本,其中 agent 可以在模拟的人类行为中进行训练和测试。
长程规划 (Long-Horizon Planning): 从持续几分钟的任务转向能够执行持续数天的持久化 agent。
Generative UI: 涌现出针对当前可观测性任务的具体需求而即时、定制化生成的 UI 界面。 }],