Trajectory.ai 與企業 AI 持續學習的未來
Trajectory.ai 與企業 AI 持續學習的未來
從靜態模型到活系統的轉變
AI 產品目前是靜態的;今天出錯的模型明天很可能仍會出同樣的錯,因為使用者提供的修正並未回饋到模型的權重中。Trajectory.ai 的核心論點是,未來的每一個產品都將是一個活系統——一種透過稱為 持續學習 的過程,根據真實世界使用情況不斷成長與演化的智慧。
這種範式轉變對法律、醫療、金融等專業領域至關重要。在這些領域,AI 若只有 80% 的正確率,往往和 0% 的正確率一樣無用。為了彌補最後的 20% 差距,模型必須從生產環境中人類專家的高保真修正中學習。
Trajectory.ai 的持續學習平台
Trajectory.ai 提供一個平台,將原始企業資料轉化為模型改進的飛輪。此過程會將專家軌跡——即代理人實際執行的步驟以及隨後由人類完成的修正——萃取成稱為「軌跡」的標準化格式。
平台關鍵功能
- 資料萃取: 將多樣的企業資料來源轉換為用於建立評估、裁判與訓練環境的軌跡。
- 主權智慧: 讓公司擁有自己的模型。例如,Trajectory.ai 與 Harvey 及 Nvidia 合作,訓練 NeMoTron 3 Super(一個 12 億參數模型),在法律工作流程上達到前沿水平的表現,同時保持比更大型前沿模型更快、更便宜。
- 快速上線: 平台將新客戶專屬模型的訓練時間從三個月縮短至不到一週。
模型訓練的技術創新
可擴展自我蒸餾策略優化(SDPO)
傳統強化學習(RL)常依賴單一的獎勵數值(例如二元的讚或倒讚),對於複雜的專業工作而言噪聲過大。Trajectory.ai 採用 自我蒸餾策略優化(SDPO) 以提供更細緻的指導。
在 SDPO 中,透過向基礎模型提供特權資訊或「提示」於其上下文,產生一個「教師」模型。接著「學生」模型被訓練以匹配這位更聰明教師的對數機率。這讓模型能從實際文字與具體指示中學習,而非僅依賴簡單的獎勵訊號,從而加速收斂並在真實基準(如 Apex 代理)上取得更佳表現。
連續 LoRA 與訓練基礎設施
傳統的訓練管線是線性的:啟動資源、抽樣資料、訓練、關閉。持續學習需要非線性、並行的方式,因為資料會以批次從生產環境湧入。
Trajectory.ai 與 Berkeley 的 Sky RL 實驗室及 Anyscale 合作,開源了一套實作 連續 LoRA 的訓練堆疊。此架構將訓練池與抽樣池分離,使多個訓練工作可平行執行。測試顯示,對兩個同時執行的工作而言,牆時時間減半,且在八個以上的並行執行時仍能有效擴展且不降低模型效能。
企業採用路線圖
Trajectory.ai 正透過三個明確階段演進其產品:
- 模型優化(目前): 專注於將噪雜的生產訊號轉化為更佳模型的核心能力。
- 客戶控制: 建置可觀測性工具與抽象層,讓產品經理能辨識代理失效之處,並直接觸發模型更新。
- 《財富》500 強整合: 超越 AI 原生新創,進入大型既有企業。目標是打造能觀測龐大組織(如 Walmart)內手動流程,並動態建構代理與模型以自動化特定工作流程的系統。
除了模型權重,長期願景還包括優化「外掛」——模型運作的框架、提升技能、加強記憶層,從而構建完整的持續學習解決方案。
摘要: Ronak Malde,Trajectory.ai 執行長,討論了從靜態 AI 模型走向活系統的方向,透過真實世界使用者訊號與自我蒸餾,在法律、金融等專業領域持續提升模型表現。
標題: Trajectory.ai 與企業 AI 持續學習的未來