Qwen-AgentWorld: RL環境シミュレーションのための言語ワールドモデル
Qwen-AgentWorld: RL環境シミュレーションのための言語ワールドモデル
概要
Qwen-AgentWorldは、エージェントの行動の結果を予測することで、強化学習(RL)環境をシミュレートするように設計されたワールドモデルです。どの行動をとるべきか(ポリシー)を決定することに主眼を置く従来の型のエージェントとは異なり、Qwen-AgentWorldは行動がとられた後に何が起こるかを予測するように訓練されており、環境そのものを効果的にシミュレートします。
このアプローチにより、Androidエミュレータやライブサーバーのような、高コストまたは低速な物理的なサンドボックスを必要とせずに、合成RL軌跡の生成や敵対的なトレーニング条件の作成が可能になります。
コア機能とサポートされるドメイン
Qwen-AgentWorldは、現在の状態と提供された行動に基づき、環境の次の状態(ターミナル出力、ウェブページのHTML、API用のJSONなど)を予測します。以下の7つの異なるドメインで動作します:
- Terminal: CLIタスクとBashコマンド。
- Software Engineering: コーディングおよび開発環境。
- Web Search: 検索エンジンとのインタラクション。
- Tools: MCP (Model Context Protocol) ツールとのインタラクション。
- Web Browsers: 一般的なウェブナビゲーションとインタラクション。
- Desktop OS: UbuntuやWindowsを含むオペレーティングシステム。
- Android OS: モバイルオペレーティングシステムのシミュレーション。
NVIDIAのCosmosやGenieのような他のワールドモデルが視覚的なフレームやビデオの予測に焦点を当てているのに対し、Qwen-AgentWorldは自己回帰的なテキストを予測するため、技術的およびプログラム的な環境において非常に効率的です。
エージェントのパフォーマンスへの影響
言語ワールドモデルを使用してエージェントを訓練することは、シミュレーションと推論能力の向上という2つの主要な利点を提供します。
高精度シミュレーションと敵対的トレーニング
ワールドモデルをシミュレーターとして使用することで、実際のサンドボックスを立ち上げるオーバーヘッドを排除できます。環境がシミュレートされているため、開発者は意図的にエラーを注入したり、答えを隠したり、結果をページネーションしたりして、敵対的な条件を作り出すことができます。これにより、エージェントは、標準的な「ハッピーパス」のRL環境ではめったに遭遇しないエッジケースに直面することで、より堅牢(robust)になるよう強制されます。
推論と自己反省の強化
モデルに世界の反応を予測させることは、行動を起こす前に結果を想像する習慣を促します。これにより、モデルの推論能力と自己反省(self-reflection)能力が向上します。ソースデータによると、言語ワールドモデルを用いたRLトレーニングを組み込むことで、特定のテストにおいて精度が69.9%から78.3%に向上しました。
トレーニングパイプライン
Qwen-AgentWorldの開発は、「CPTで注入し、SFTで活性化し、RLで研ぎ澄ます」という3段階のプロセスに従います。
1. Continual Pre-Training (CPT)
この段階では、世界の知識を注入します。モデルには、サンドボックス(例:Androidエミュレータ、OSエミュレータ)からの数百万の現実世界の行動・観察軌跡と、法律、医学、金融、サイバーセキュリティなどの専門分野をカバーする世界の知識コーパスが供給されます。
2. Supervised Fine-Tuning (SFT)
この段階では、推論を活性化します。モデルは単なる次トークン予測を超えて、次の状態を予測する前に明示的な推論チェーンを生成するようにします。高品質を確保するため、リジェクションサンプリングを用いて約7,000件の高品質な思考軌跡を選択しました。
3. Reinforcement Learning (RL)
この段階では、予測の忠実度を研ぎ澄ませます。モデルは、on-policyロールアウトと、報酬ハッキングを防ぐための二重検証システムを使用して洗練(refine)されます:
- LLM-as-a-Judge: フォーマット、事実性、一貫性、リアリズム、および品質をスコア付けします。
- Rule-based Verifiers: 有効なJSONフォーマットや実行可能なコードなどの正確な要件を確認します。
開発者向けの活用事例
Qwen-AgentWorldは、高品質な合成RLデータを作成することを可能にし、これは特定のユースケースに合わせてローカルAIモデルを微調整するために使用できます。
- Synthetic Trajectory Generation: 開発者はモデルを使用して数千の件の軌跡を迅速に生成し、それをClaudeなどのより大きなプロプライエタリなモデルから、より小さく専門化されたローカルモデルへと知識を蒸留(distill)するために使用できます。
- Real-time RL Environments: モデルは、カスタム報酬モデルとペアリングされたライブRL環境として機能し、リアルタイムのエージェントトレーニングを行えます。
- Specialized Fine-Tuning: システムプロンプトを調整することで(例:モデルにpandas specialistとして振る舞うよう指示する)、開発者はモデルの内部的な世界の知識を活用して、ニッチな技術的タスクのための非常に正確なトレーニングデータを生成できます。