Qwen-AgentWorld: 用于 RL 环境模拟的语言世界模型
Qwen-AgentWorld: 用于 RL 环境模拟的语言世界模型
概述
Qwen-AgentWorld 是一个旨在通过预测智能体动作的结果来模拟强化学习 (RL) 环境的世界模型。与主要训练用于决定采取哪种动作(策略)的传统智能体不同,Qwen-AgentWorld 经过训练可以预测采取动作之后会发生什么,从而有效地模拟环境本身。
这种方法允许生成合成的 RL 轨迹,并无需昂贵或缓慢的物理沙箱(如 Android 模拟器或实时服务器)即可创建对抗性训练条件。
核心能力与支持的领域
Qwen-AgentWorld 根据当前状态和提供的动作,预测环境的下一个状态——例如终端输出、网页的 HTML 或 API 的 JSON。它在七个不同的领域运行:
- Terminal: CLI 任务和 Bash 命令。
- Software Engineering: 编程和开发环境。
- Web Search: 与搜索引擎交互。
- Tools: 与 MCP (Model Context Protocol) 工具交互。
- Web Browsers: 通用的网页导航和交互。
- Desktop OS: 包括 Ubuntu 和 Windows 在内的操作系统。
- Android OS: 移动操作系统模拟。
虽然其他世界模型(如 NVIDIA 的 Cosmos 或 Genie)专注于预测视觉帧或视频,但 Qwen-AgentWorld 预测自回归文本,这使其在技术和程序化环境中非常高效。
对智能体性能的影响
使用语言世界模型训练智能体提供了两个主要优势:模拟和改进推理。
高保真模拟与对抗性训练
使用世界模型作为模拟器消除了启动真实沙箱的开销。由于环境是模拟的,开发人员可以故意注入错误、隐藏答案或对结果进行分页,以创建对抗性条件。这迫使智能体通过面对在标准、“快乐路径” RL 环境中很少遇到的边缘情况来变得更加鲁棒。
增强推理与自我反思
教导模型预测世界的响应会鼓励在行动之前想象结果的习惯。这提高了模型的推理和自我反思能力。根据源数据,在特定测试中,结合语言世界模型 RL 训练将准确率从 69.9% 提高到了 78.3%。
训练流水线
Qwen-AgentWorld 的开发遵循一个三阶段过程:“CPT 注入,SFT 激活,RL 磨练”。
1. 持续预训练 (CPT)
此阶段注入世界知识。模型被喂入来自沙箱(例如 Android 模拟器、OS 模拟器)的数百万个真实世界动作-观察轨迹,以及涵盖法律、医学、金融和网络安全等专业领域的知识语料库。
2. 有监督微调 (SFT)
此阶段激活推理。模型超越了下一个 token 的预测,在预测下一个状态之前生成显式的推理链。为了确保高质量,使用了拒绝采样来选择大约 7,000 条高质量的思维轨迹。
3. 强化学习 (RL)
此阶段磨练预测的保真度。模型使用 on-policy rollouts 和双重验证系统进行优化,以防止奖励作弊 (reward hacking):
- LLM-as-a-Judge: 从格式、事实性、一致性、现实性以及质量方面对预测进行评分。
- Rule-based Verifiers: 检查精确的要求,例如有效的 JSON 格式或可执行的代码。
开发者实用应用
Qwen-AgentWorld 能够创建高质量的合成 RL 数据,这些数据可用于针对特定用例微调本地 AI 模型。
- Synthetic Trajectory Generation: 开发人员可以使用该模型快速生成数千条轨迹,然后将知识从较大的专有模型(如 Claude)蒸馏到较小的、专门的本地模型中。
- Real-time RL Environments: 该模型可以作为实时 RL 环境,并与自定义奖励模型配对,用于实时智能体训练。
- Specialized Fine-Tuning: 通过调整系统提示词(例如,指示模型成为 pandas 专家),开发人员可以利用模型的内部世界知识来生成针对利基技术任务的高度准确的训练数据。