Trajectory.ai とエンタープライズ AI における継続学習の未来

Trajectory.ai とエンタープライズ AI における継続学習の未来

静的モデルからリビングシステムへのシフト

AI 製品は現在、静的です。今日ミスをしたモデルは、ユーザーから提供された修正がモデルの重みへ統合されないため、明日も同じミスを繰り返す可能性が高いです。Trajectory.ai の核心的な主張は、将来のすべての製品が continual learning と呼ばれるプロセスを通じて、実際の使用に基づき成長・進化するリビングシステムになるということです。

このパラダイムシフトは、法務、医療、金融といった専門領域にとって不可欠です。これらの分野では、AI が 80% 正確でも、実質的に 0% 正確と同等に使い物にならないことが多いです。残りの 20% のギャップを埋めるためには、プロダクション環境で人間の専門家が行う高精度な修正から学習する必要があります。

継続学習のための Trajectory.ai プラットフォーム

Trajectory.ai は、生のエンタープライズデータをモデル改善のためのフライホイールに変換するプラットフォームを提供します。このプロセスは、エージェントが実際に取ったステップと人間が行った修正という エキスパートトレース を「trajectory」と呼ばれる標準化フォーマットに蒸留することから始まります。

主なプラットフォーム機能

  • Data Distillation: 多様なエンタープライズデータソースを trajectory に変換し、評価、ジャッジ、トレーニング環境の作成に利用します。
  • Sovereign Intelligence: 企業が自社モデルを所有できるようにします。例として、Trajectory.ai は Harvey と Nvidia と提携し、NeMoTron 3 Super(12B パラメータモデル)を法務ワークフローで最先端レベルの性能を達成させつつ、より大規模な最先端モデルよりも高速かつ低コストで提供しました。
  • Rapid Onboarding: 新規顧客向けに、専門モデルのトレーニング期間を 3 ヶ月から 1 週間未満に短縮しました。

モデル訓練における技術革新

Scaling Self-Distillation Policy Optimization (SDPO)

従来の強化学習(RL)は単一の報酬値(例: バイナリの「いいね/よくない」)に依存しがちで、複雑な専門作業にはノイズが大きすぎます。Trajectory.ai は Self-Distillation Policy Optimization (SDPO) を活用し、より細分化された指示を提供します。

SDPO では、ベースモデルに特権情報や「ヒント」をコンテキストとして与えることで「教師」モデルを作成し、これに対して「学生」モデルが対数確率を合わせるように訓練します。これにより、単純な報酬シグナルではなく実際のテキストと具体的な指示から学習でき、収束が速くなり、Apex エージェントなど実世界ベンチマークでの性能が向上します。

Continuous LoRA とトレーニングインフラストラクチャ

標準的なトレーニングパイプラインは直線的で、リソースを起動→データをサンプリング→訓練→リソースを停止という流れです。継続学習は、プロダクションからバッチでデータが流入するため、非線形かつ同時並行的なアプローチが必要です。

Trajectory.ai は Berkeley の Sky RL ラボと Anyscale と協力し、Continuous LoRA を実装したトレーニングスタックをオープンソース化しました。このアーキテクチャはトレーニングプールとサンプリングプールを分離し、複数のトレーニングジョブを並行実行可能にします。テストでは、2 つの同時ジョブで壁時計時間が半減し、8 つ以上の同時実行でもモデル性能を損なうことなくスケールできました。

エンタープライズ導入へのロードマップ

Trajectory.ai は製品を以下の 3 つのフェーズで進化させています。

  1. Model Optimization(現行): ノイズの多いプロダクションシグナルを受け取り、より良いモデルを訓練するコア機能に注力。
  2. Customer Control: プロダクトマネージャーがエージェントの失敗箇所を特定し、直接モデル更新をトリガーできる可観測性ツールと抽象化レイヤーを構築。
  3. Fortune 500 Integration: AI ネイティブスタートアップから大手企業へ拡大。目標は、Walmart のような大規模組織内の手作業プロセスを観測し、特定のワークフローを自動化するエージェントとモデルを動的に構築できるシステムを作ることです。

モデルの重みだけでなく、長期的ビジョンは「ハーネス」(モデルが動作するフレームワーク)の最適化、スキル向上、メモリ層の強化を含む、完全な継続学習ソリューションの実現です。

Sources