Qwen-AgentWorld: 面向通用智能体的语言世界模型

Qwen-AgentWorld: 面向通用智能体的语言世界模型

Qwen-AgentWorld 是一个用于语言世界模型的框架,旨在根据当前的观察和动作来预测环境动态。通过利用长链式思考(chain-of-thought)推理来模拟智能体环境,Qwen-AgentWorld 为 AI 智能体提供了一种认知机制,使其能够在不完全依赖现实世界交互的情况下,提升其推理和规划能力。

用于环境模拟的基础模型

Qwen-AgentWorld 引入了两个主要模型,Qwen-AgentWorld-35B-A3BQwen-AgentWorld-397B-A17B,它们是首批能够在七个不同领域模拟智能体环境的语言世界模型。这些模型经过训练,能够根据当前的观察和特定的动作来预测环境的下一个状态。

三阶段训练流水线

这些模型是使用基于超过 1000 万条环境交互轨迹的训练流水线开发的:

  1. 持续预训练 (CPT): 此阶段通过利用状态转移动态和增强的专业语料库来注入通用世界建模能力。
  2. 监督微调 (SFT): 此阶段激活了下一状态预测推理,使模型能够逻辑地推导出动作导致的结果状态。
  3. 强化学习 (RL): 此阶段使用定制的框架,通过采用混合评分标准与规则奖励来提高模拟的保真度,以确保模拟环境的行为准确无误。

AgentWorldBench 评估

为了衡量语言世界模型的性能,研究人员引入了 AgentWorldBench。该基准测试是由五个前沿模型在九个既定基准测试中的真实世界交互构建而成的。实证结果表明,Qwen-AgentWorld 在模拟环境动态的能力方面显著优于现有的前沿模型。

通过世界建模增强通用智能体

Qwen-AgentWorld 通过两种不同的范式来增强通用智能体:

解耦的环境模拟

Qwen-AgentWorld 可以作为一个独立的环境模拟器。这使得对数千个真实世界环境进行可扩展且可控的模拟成为可能,这些模拟随后可用于智能体强化学习 (RL)。在这些模拟中训练智能体所获得的性能提升,超过了仅在真实环境中训练所能达到的效果。

统一的智能体基础模型

将模型作为世界模型进行训练,可以作为通用智能体任务的有效“热身”。当一个模型首先被训练去理解并模拟环境动态时,其在七个不同的智能体基准测试中的下游性能都会得到提升,这表明世界建模能力是通用智能体熟练度的基础。

Sources