Trajectory.ai 与企业 AI 持续学习的未来

从静态模型到活系统的转变

AI 产品目前是静态的；今天出错的模型很可能明天仍会犯同样的错误，因为用户提供的纠正并未被整合回模型的权重中。Trajectory.ai 的核心论点是，所有未来的产品都将是活系统——一种通过称为 持续学习 的过程，根据真实世界使用情况不断成长和演化的智能。

这种范式转变对法律、医疗保健和金融等专业领域至关重要。在这些领域，80% 正确率的 AI 往往和 0% 正确率的 AI 一样毫无用处。要弥补最后的 20% 差距，模型必须从生产环境中人类专家所做的高保真纠正中学习。

Trajectory.ai 提供一个平台，将原始企业数据转化为模型改进的飞轮。该过程包括提炼专家轨迹——即代理执行的实际步骤以及随后由人类进行的纠正——并将其转化为一种称为 “轨迹” 的标准化格式。

数据提炼： 将多样的企业数据源转换为用于创建评估、评判器和训练环境的轨迹。
主权智能： 让公司拥有自己的模型。例如，Trajectory.ai 与 Harvey 和 Nvidia 合作，训练 NeMoTron 3 Super（一个 120 亿参数模型），在法律工作流上实现前沿水平的性能，同时保持比更大前沿模型更快、更便宜。
快速上手： 平台将为新客户训练专用模型的时间从三个月缩短到不到一周。

传统强化学习（RL）通常依赖单一的奖励数值（例如二元的赞成/反对），这对复杂的专家工作来说噪声过大。Trajectory.ai 使用 自蒸馏策略优化（SDPO） 来提供更细粒度的指导。

在 SDPO 中，通过向基础模型提供特权信息或上下文中的 “提示”，创建一个 “教师” 模型。随后让 “学生” 模型学习匹配该更聪明教师的对数概率。这使模型能够从实际文本和具体指令中学习，而不是仅仅依赖简单的奖励信号，从而实现更快收敛并在真实基准（如 Apex 代理）上获得更好性能。

标准训练流水线是线性的：启动资源、抽样数据、训练、关闭资源。持续学习需要非线性、并发的方式，因为数据是批量从生产环境中到达的。

Trajectory.ai 与伯克利的 Sky RL 实验室和 Anyscale 合作，开源了实现 连续 LoRA 的训练栈。该架构将训练池与抽样池分离，允许多个训练任务并行运行。测试表明，这种方法在两个并发任务时将实际耗时减半，并能高效扩展到八个或更多并发运行而不降低模型性能。

Trajectory.ai 正在通过三个不同阶段演进其产品：

模型优化（当前）： 专注于将嘈杂的生产信号转化为更佳模型的核心能力。
客户控制： 构建可观测性工具和抽象层，使产品经理能够识别代理失效的具体位置并直接触发模型更新。
《财富》500 强集成： 超越 AI 原生初创公司，面向大型既有企业。目标是创建能够观察大型组织（如沃尔玛）内部手工流程，并动态构建代理和模型以自动化这些特定工作流的系统。

除了模型权重，长期愿景还包括优化 “外壳”（模型运行的框架）、提升技能以及增强记忆层，以构建完整的持续学习解决方案。

摘要： Ronak Malde，Trajectory.ai 的首席执行官，讨论了超越静态 AI 模型，转向利用真实用户信号和自蒸馏在法律、金融等专业领域持续改进的活系统。

标题： Trajectory.ai 与企业 AI 持续学习的未来