Qwen-AgentWorld: 用於通用代理的語言世界模型
Qwen-AgentWorld: 用於通用代理的語言世界模型
Qwen-AgentWorld 是一個語言世界模型的框架,旨在根據當前的觀察與行動來預測環境動態。透過長鏈條思考(long chain-of-thought)推理來模擬代理環境,Qwen-AgentWorld 為 AI 代理提供了一種認知機制,使其無需僅僅依賴現實世界的互動,即可提升其推理與規劃能力。
用於環境模擬的基礎模型
Qwen-AgentWorld 引入了兩個主要的模型,Qwen-AgentWorld-35B-A3B 與 Qwen-AgentWorld-397B-A17B,它們是首批能夠在七個不同領域模擬代理環境的語言世界模型。這些模型經過訓練,能夠在給定當前觀察與特定行動的情況下,預測環境的下一個狀態。
三階段訓練流程
這些模型是使用基於超過 1,000 萬條環境互動軌跡的訓練流程開發而成的:
- 持續預訓練 (CPT): 此階段透過利用狀態轉移動態與增強的專業語料庫,注入通用型的世界建模能力。
- 監督式微調 (SFT): 此階段啟動了下一個狀態預測的推理能力,使模型能夠邏輯性地推導出行動後的結果狀態。
- 強化學習 (RL): 此階段使用量身定制的框架,透過採用混合評分與規則獎勵來提升模擬的保真度,以確保模擬環境的行為是準確的。
AgentWorldBench 評估
為了衡量語言世界模型的性能,研究人員引入了 AgentWorldBench。此基準測試是由五個前沿模型在九個既定基準測試中的真實世界互動所構建而成的。實證結果顯示,Qwen-AgentWorld 在模擬環境動態的能力方面顯著優於現有的前沿模型。
透過世界建模增強通用代理
Qwen-AgentWorld 透過兩種不同的範式來增強通用代理:
解耦式環境模擬
Qwen-AgentWorld 可以作為一個獨立的環境模擬器。這使得數千個真實世界環境的模擬具備可擴展性與可控性,隨後可用於代理的強化學習 (RL)。在這些模擬中訓練代理所獲得的性能提升,超過了僅在真實環境中訓練所能達到的效果。
統一代理基礎模型
將模型作為世界模型進行訓練,可以作為通用代理任務的有效「熱身」。當一個模型首先被訓練去理解並模擬環境動態時,其在七個不同的代理基準測試中的下游性能都會有所提升,這表明世界建模能力是通用代理熟練度的基礎。