Qwen-AgentWorld: 用于 RL 环境模拟的语言世界模型

概述

Qwen-AgentWorld 是一个旨在通过预测智能体动作的结果来模拟强化学习 (RL) 环境的世界模型。与主要训练用于决定采取哪种动作（策略）的传统智能体不同，Qwen-AgentWorld 经过训练可以预测采取动作之后会发生什么，从而有效地模拟环境本身。

这种方法允许生成合成的 RL 轨迹，并无需昂贵或缓慢的物理沙箱（如 Android 模拟器或实时服务器）即可创建对抗性训练条件。

Qwen-AgentWorld 根据当前状态和提供的动作，预测环境的下一个状态——例如终端输出、网页的 HTML 或 API 的 JSON。它在七个不同的领域运行：

虽然其他世界模型（如 NVIDIA 的 Cosmos 或 Genie）专注于预测视觉帧或视频，但 Qwen-AgentWorld 预测自回归文本，这使其在技术和程序化环境中非常高效。

使用语言世界模型训练智能体提供了两个主要优势：模拟和改进推理。

使用世界模型作为模拟器消除了启动真实沙箱的开销。由于环境是模拟的，开发人员可以故意注入错误、隐藏答案或对结果进行分页，以创建对抗性条件。这迫使智能体通过面对在标准、“快乐路径” RL 环境中很少遇到的边缘情况来变得更加鲁棒。

教导模型预测世界的响应会鼓励在行动之前想象结果的习惯。这提高了模型的推理和自我反思能力。根据源数据，在特定测试中，结合语言世界模型 RL 训练将准确率从 69.9% 提高到了 78.3%。

Qwen-AgentWorld 的开发遵循一个三阶段过程：“CPT 注入，SFT 激活，RL 磨练”。

此阶段注入世界知识。模型被喂入来自沙箱（例如 Android 模拟器、OS 模拟器）的数百万个真实世界动作-观察轨迹，以及涵盖法律、医学、金融和网络安全等专业领域的知识语料库。

此阶段激活推理。模型超越了下一个 token 的预测，在预测下一个状态之前生成显式的推理链。为了确保高质量，使用了拒绝采样来选择大约 7,000 条高质量的思维轨迹。

此阶段磨练预测的保真度。模型使用 on-policy rollouts 和双重验证系统进行优化，以防止奖励作弊 (reward hacking)：

Qwen-AgentWorld 能够创建高质量的合成 RL 数据，这些数据可用于针对特定用例微调本地 AI 模型。

Synthetic Trajectory Generation: 开发人员可以使用该模型快速生成数千条轨迹，然后将知识从较大的专有模型（如 Claude）蒸馏到较小的、专门的本地模型中。
Real-time RL Environments: 该模型可以作为实时 RL 环境，并与自定义奖励模型配对，用于实时智能体训练。
Specialized Fine-Tuning: 通过调整系统提示词（例如，指示模型成为 pandas 专家），开发人员可以利用模型的内部世界知识来生成针对利基技术任务的高度准确的训练数据。