SkillOpt: ディープラーニングスタイルの最適化ループを用いた自己進化型エージェントスキルのためのエグゼクティブ戦略
SkillOpt: ディープラーニングスタイルの最適化ループを用いた自己進化型エージェントスキルのためのエグゼクティブ戦略
何を解決するか
SkillOptは、AIエージェントのスキルにおける再現可能で規律ある最適化の欠如に対処します。ほとんどのエージェントスキルは手動で作成されるか、一度のパスで生成されるものですが、フィードバックを受けて確実に改善されることは稀です。SkillOptは、スキルドキュメント自体を凍結されたモデルの「学習可能な状態」として扱い、モデルの実際の重みを変更することなく、スキルを進化させ、改善することを可能にします。
仕組み
SkillOptは、ディープラーニングの概念を用いて、テキストベースのスキルのためのトレーニングループを実装します。個別のオプティマイザモデルを使用して、スコア付けされたロールアウトを分析し、スキルドキュメントに対して境界付きの編集(テキストの追加、削除、または置換)を行います。候補となる編集は、ホールドアウトされた検証スコアを厳密に改善する場合にのみ受け入れられます。安定性を維持するために、テキスト学習率の予算、拒否された編集のバッファ、およびエポックごとの更新を採用しています。最終的な結果は、推論時に追加のオーバーヘッドなしで、あらゆるターゲットモデルで使用できるコンパクトな best_skill.md ファイルです。
対象者
このツールは、Claude Code、Codex、または Copilot を使用しているようなAIエージェントを構築している開発者や研究者で、高価なモデルのファインチューニングを行わずに、特定のタスクやベンチマークにおいてエージェントのパフォーマンスを実際に最適化したいと考えている人々を対象としています。
ハイライト
- 重みなしの最適化: モデルの重みに触れることなく、エージェントのパフォーマンスを向上させます。
- ゼロ・インファレンス・オーバーヘッド: 最適化されたスキルのアーティファクトは、デプロイ時に使用される単純なマークダウンファイルです。
- 高いパフォーマンス: 複数のベンチマークとターゲットモデル(例:GPT-5.5)において、大幅な精度の向上を実証しました。
- モデル間転送: 最適化されたスキルは、異なるモデルのスケールや実行ハーネスを越えて転送可能です。
- 拡張可能なアーキテクチャ: 複数のバックエンド(OpenAI, Azure, Claude, Qwen, MiniMax)をサポートし、新しいベンチマークの容易な追加を可能にします。
Sources
- undefinedmicrosoft/SkillOpt