Qwen-AgentWorld: 汎用エージェントのための言語ワールドモデル

Qwen-AgentWorldは、現在の観測と行動に基づいて環境のダイナミクスを予測するように設計された、言語ワールドモデルのためのフレームワークです。長い思考の連鎖（chain-of-thought reasoning）を通じてエージェント環境をシミュレートすることで、Qwen-AgentWorldは、AIエージェントが現実世界との相互作用のみに頼ることなく、推論および計画能力を向上させるための認知メカニズムを提供します。

環境シミュレーションのための基盤モデル

Qwen-AgentWorldは、2つの主要なモデル、Qwen-AgentWorld-35B-A3BおよびQwen-AgentWorld-397B-A17Bを導入しています。これらは、7つの異なるドメインにわたってエージェント環境をシミュレートできる最初の言語ワールドモデルです。これらのモデルは、現在の観測と特定の行動が与えられたときに、環境の次の状態を予測するようにトレーニングされています。

3段階のトレーニングパイプライン

これらのモデルは、1,000万件以上の環境相互作用の軌跡（trajectories）に基づくトレーニングパイプラインを使用して開発されました。

Continual Pre-training (CPT): この段階では、状態遷移のダイナミクスと拡張された専門的なコーパスを利用することで、汎用的なワールドモデリング能力を注入します。
Supervised Fine-Tuning (SFT): この段階では、次状態予測の推論を活性化し、モデルが行動の結果として生じる状態を論理的に導き出せるようにします。
Reinforcement Learning (RL): この段階では、ハイブリッドなルーブリックおよびルール報酬を採用するカスタマイズされたフレームワークを使用して、シミュレートされた環境が正確に振る舞うようにすることで、シミュレーションの忠実度を向上させます。

AgentWorldBench による評価

言語ワールドモデルの性能を測定するために、研究者たちはAgentWorldBenchを導入しました。このベンチマークは、9つの確立されたベンチマークにわたる5つの最先端モデルの現実世界での相互作用から構築されています。実証的な結果は、Qwen-AgentWorldが環境のダイナミクスをシミュレートする能力において、既存の最先端モデルを大幅に上回っていることを示しています。

ワールドモデリングによる汎用エージェントの強化

Qwen-AgentWorldは、2つの異なるパラダイムを通じて汎用エージェントを強化します。

分離された環境シミュレーション

Qwen-AgentWorldは、スタンドアロンの環境シミュレーターとして機能することができます。これにより、数千の現実世界の環境をスケーラブルかつ制御可能な形でシミュレートすることが可能になり、それらはエージェントの強化学習（RL）に使用できます。これらのシミュレーション内でエージェントをトレーニングすることで、現実の環境のみでトレーニングした場合に得られる性能向上を上回る成果が得られます。

統合されたエージェント基盤モデル

モデルをワールドモデルとしてトレーニングすることは、汎用エージェントのタスクに対する効果的な「ウォームアップ」として機能します。モデルが最初に環境のダイナミクスを理解しシミュレートするようにトレーニングされると、そのダウンストリームの性能は7つの異なるエージェント・ベンチマークにおいて向上します。これは、ワールドモデリング能力が汎用エージェントの習熟度における基礎となることを示唆しています。

Qwen-AgentWorld: 汎用エージェントのための言語ワールドモデル

Qwen-AgentWorld: 汎用エージェントのための言語ワールドモデル

環境シミュレーションのための基盤モデル

3段階のトレーニングパイプライン

AgentWorldBench による評価

ワールドモデリングによる汎用エージェントの強化

分離された環境シミュレーション

統合されたエージェント基盤モデル

Sources