Qwen-AgentWorld: 用於 RL 環境模擬的語言世界模型

概述

Qwen-AgentWorld 是一個旨在透過預測代理人（agent）動作的結果來模擬強化學習（RL）環境的世界模型。與主要訓練用於決定採取哪種動作（策略）的傳統代理人不同，Qwen-AgentWorld 經過訓練以預測採取動作之後會發生什麼，從而有效地模擬環境本身。

這種方法允許生成合成的 RL 軌跡，並在不需要昂貴或緩慢的實體沙盒（例如 Android emulators 或實時伺服器）的情況下，創建對抗性訓練條件。

Qwen-AgentWorld 根據當前狀態和提供的動作，預測環境的下一個狀態——例如終端機輸出、網頁的 HTML 或 API 的 JSON。它在七個不同的領域運行：

雖然其他世界模型（如 NVIDIA 的 Cosmos 或 Genie）專注於預測視覺幀或影片，但 Qwen-AgentWorld 預測自回歸文本，使其在技術和程式化環境中非常高效。

使用語言世界模型訓練代理人提供了兩個主要優勢：模擬和改進推理能力。

使用世界模型作為模擬器可以消除啟動真實沙盒的開銷。由於環境是模擬的，開發者可以刻意注入錯誤、隱藏答案或對結果進行分頁，以創建對抗性條件。這迫使代理人在面對標準、「快樂路徑」RL 環境中很少遇到的邊緣案例時，變得更加強健。

教導模型預測世界的反應，可以鼓勵在採取行動之前想像結果的習慣。這改善了模型的推理和自我反思能力。根據來源數據，在特定測試中，結合語言世界模型 RL 訓練將準確度從 69.9% 提高到 78.3%。

Qwen-AgentWorld 的開發遵循一個三階段過程：「CPT 注入，SFT 激活，RL 銳化」。

此階段注入世界知識。模型被餵入來自沙盒（例如 Android emulators、OS emulators）的數百萬個真實世界動作-觀察軌跡，以及涵蓋法律、醫學、金融和網絡安全等專業領域的世界知識語料庫。

此階段激活推理。模型超越了下一個 token 的預測，在預測下一個狀態之前生成顯式的推理鏈。為了確保高品質，使用了拒絕採樣（rejection sampling）來選擇大約 7,000 個高品質的思考軌跡。

此階段銳化預測的保真度。模型使用 on-policy rollouts 和雙重驗證系統來防止獎勵黑客行為（reward hacking）：

Qwen-AgentWorld 可以創建高品質的合成 RL 數據，這些數據可用於針對特定用例微調本地 AI 模型。

Synthetic Trajectory Generation: 開發者可以使用該模型快速生成數千條軌跡，用於將知識從較大的專有模型（如 Claude）蒸餾到較小的、專業化的本地模型中。
Real-time RL Environments: 該模型可以作為一個實時 RL 環境，與自定義的獎勵模型配對，用於實時代理人訓練。
Specialized Fine-Tuning: 透過調整系統提示詞（例如，指示模型成為 pandas specialist），開發者可以利用模型的內部世界知識來生成針對利基技術任務的高度準確的訓練數據。