SkillOpt: 一种使用深度学习风格优化循环实现智能体技能自我进化的执行策略
SkillOpt: 一种使用深度学习风格优化循环实现智能体技能自我进化的执行策略
它解决了什么问题
SkillOpt 解决了 AI 智能体技能缺乏可复现、有纪律的优化问题。虽然大多数智能体技能是手工构建或单次生成的,但它们在反馈下往往无法可靠地改进。SkillOpt 将技能文档本身视为冻结模型的“可训练状态”,从而允许技能在无需修改模型实际权重的情况下进行进化和改进。
工作原理
SkillOpt 使用深度学习的概念为文本技能实现了一个训练循环。它使用一个独立的优化器模型来分析评分后的 rollout,并在技能文档上执行有界编辑(添加、删除或替换文本)。只有当候选编辑严格提高验证集分数时,编辑才会被接受。为了保持稳定性,它采用了文本学习率预算、拒绝编辑缓冲区以及按 epoch 进行更新。最终结果是一个紧凑的 best_skill.md 文件,可以在推理时配合任何目标模型使用,且无需任何额外的开销。
适用对象
该工具专为构建 AI 智能体(例如使用 Claude Code、Codex 或 Copilot 的开发者)的开发者和研究人员设计,他们希望在不进行昂贵的模型微调的情况下,实际优化智能体在特定任务或基准测试上的性能。
亮点
- 无需权重的优化:在不触及模型权重的情况下提高智能体性能。
- 零推理开销:优化后的技能产物是一个简单的 markdown 文件,用于部署时使用。
- 高性能:在多个基准测试和目标模型(例如 GPT-5.5)上展示了显著的准确率提升。
- 跨模型迁移:优化后的技能可以跨越不同的模型规模和执行框架进行迁移。
- 可扩展架构:支持多种后端(OpenAI、Azure、Claude、Qwen、MiniMax)并允许轻松添加新的基准测试。
Sources
- undefinedmicrosoft/SkillOpt