Trajectory.ai 與企業 AI 持續學習的未來

從靜態模型到活系統的轉變

AI 產品目前是靜態的；今天出錯的模型明天很可能仍會出同樣的錯，因為使用者提供的修正並未回饋到模型的權重中。Trajectory.ai 的核心論點是，未來的每一個產品都將是一個活系統——一種透過稱為 持續學習 的過程，根據真實世界使用情況不斷成長與演化的智慧。

這種範式轉變對法律、醫療、金融等專業領域至關重要。在這些領域，AI 若只有 80% 的正確率，往往和 0% 的正確率一樣無用。為了彌補最後的 20% 差距，模型必須從生產環境中人類專家的高保真修正中學習。

Trajectory.ai 的持續學習平台

Trajectory.ai 提供一個平台，將原始企業資料轉化為模型改進的飛輪。此過程會將專家軌跡——即代理人實際執行的步驟以及隨後由人類完成的修正——萃取成稱為「軌跡」的標準化格式。

平台關鍵功能

資料萃取： 將多樣的企業資料來源轉換為用於建立評估、裁判與訓練環境的軌跡。
主權智慧： 讓公司擁有自己的模型。例如，Trajectory.ai 與 Harvey 及 Nvidia 合作，訓練 NeMoTron 3 Super（一個 12 億參數模型），在法律工作流程上達到前沿水平的表現，同時保持比更大型前沿模型更快、更便宜。
快速上線： 平台將新客戶專屬模型的訓練時間從三個月縮短至不到一週。

模型訓練的技術創新

可擴展自我蒸餾策略優化（SDPO）

傳統強化學習（RL）常依賴單一的獎勵數值（例如二元的讚或倒讚），對於複雜的專業工作而言噪聲過大。Trajectory.ai 採用 自我蒸餾策略優化（SDPO） 以提供更細緻的指導。

在 SDPO 中，透過向基礎模型提供特權資訊或「提示」於其上下文，產生一個「教師」模型。接著「學生」模型被訓練以匹配這位更聰明教師的對數機率。這讓模型能從實際文字與具體指示中學習，而非僅依賴簡單的獎勵訊號，從而加速收斂並在真實基準（如 Apex 代理）上取得更佳表現。

連續 LoRA 與訓練基礎設施

傳統的訓練管線是線性的：啟動資源、抽樣資料、訓練、關閉。持續學習需要非線性、並行的方式，因為資料會以批次從生產環境湧入。

Trajectory.ai 與 Berkeley 的 Sky RL 實驗室及 Anyscale 合作，開源了一套實作 連續 LoRA 的訓練堆疊。此架構將訓練池與抽樣池分離，使多個訓練工作可平行執行。測試顯示，對兩個同時執行的工作而言，牆時時間減半，且在八個以上的並行執行時仍能有效擴展且不降低模型效能。

企業採用路線圖

Trajectory.ai 正透過三個明確階段演進其產品：

模型優化（目前）： 專注於將噪雜的生產訊號轉化為更佳模型的核心能力。
客戶控制： 建置可觀測性工具與抽象層，讓產品經理能辨識代理失效之處，並直接觸發模型更新。
《財富》500 強整合： 超越 AI 原生新創，進入大型既有企業。目標是打造能觀測龐大組織（如 Walmart）內手動流程，並動態建構代理與模型以自動化特定工作流程的系統。

除了模型權重，長期願景還包括優化「外掛」——模型運作的框架、提升技能、加強記憶層，從而構建完整的持續學習解決方案。

摘要： Ronak Malde，Trajectory.ai 執行長，討論了從靜態 AI 模型走向活系統的方向，透過真實世界使用者訊號與自我蒸餾，在法律、金融等專業領域持續提升模型表現。

標題： Trajectory.ai 與企業 AI 持續學習的未來

Trajectory.ai 與企業 AI 持續學習的未來

Trajectory.ai 與企業 AI 持續學習的未來

從靜態模型到活系統的轉變

Trajectory.ai 的持續學習平台

平台關鍵功能

模型訓練的技術創新

可擴展自我蒸餾策略優化（SDPO）

連續 LoRA 與訓練基礎設施

企業採用路線圖

Sources