Trajectory.ai 与企业 AI 持续学习的未来
Trajectory.ai 与企业 AI 持续学习的未来
从静态模型到活系统的转变
AI 产品目前是静态的;今天出错的模型很可能明天仍会犯同样的错误,因为用户提供的纠正并未被整合回模型的权重中。Trajectory.ai 的核心论点是,所有未来的产品都将是活系统——一种通过称为 持续学习 的过程,根据真实世界使用情况不断成长和演化的智能。
这种范式转变对法律、医疗保健和金融等专业领域至关重要。在这些领域,80% 正确率的 AI 往往和 0% 正确率的 AI 一样毫无用处。要弥补最后的 20% 差距,模型必须从生产环境中人类专家所做的高保真纠正中学习。
Trajectory.ai 持续学习平台
Trajectory.ai 提供一个平台,将原始企业数据转化为模型改进的飞轮。该过程包括提炼专家轨迹——即代理执行的实际步骤以及随后由人类进行的纠正——并将其转化为一种称为 “轨迹” 的标准化格式。
平台关键能力
- 数据提炼: 将多样的企业数据源转换为用于创建评估、评判器和训练环境的轨迹。
- 主权智能: 让公司拥有自己的模型。例如,Trajectory.ai 与 Harvey 和 Nvidia 合作,训练 NeMoTron 3 Super(一个 120 亿参数模型),在法律工作流上实现前沿水平的性能,同时保持比更大前沿模型更快、更便宜。
- 快速上手: 平台将为新客户训练专用模型的时间从三个月缩短到不到一周。
模型训练的技术创新
可扩展自蒸馏策略优化(SDPO)
传统强化学习(RL)通常依赖单一的奖励数值(例如二元的赞成/反对),这对复杂的专家工作来说噪声过大。Trajectory.ai 使用 自蒸馏策略优化(SDPO) 来提供更细粒度的指导。
在 SDPO 中,通过向基础模型提供特权信息或上下文中的 “提示”,创建一个 “教师” 模型。随后让 “学生” 模型学习匹配该更聪明教师的对数概率。这使模型能够从实际文本和具体指令中学习,而不是仅仅依赖简单的奖励信号,从而实现更快收敛并在真实基准(如 Apex 代理)上获得更好性能。
连续 LoRA 与训练基础设施
标准训练流水线是线性的:启动资源、抽样数据、训练、关闭资源。持续学习需要非线性、并发的方式,因为数据是批量从生产环境中到达的。
Trajectory.ai 与伯克利的 Sky RL 实验室和 Anyscale 合作,开源了实现 连续 LoRA 的训练栈。该架构将训练池与抽样池分离,允许多个训练任务并行运行。测试表明,这种方法在两个并发任务时将实际耗时减半,并能高效扩展到八个或更多并发运行而不降低模型性能。
企业采纳路线图
Trajectory.ai 正在通过三个不同阶段演进其产品:
- 模型优化(当前): 专注于将嘈杂的生产信号转化为更佳模型的核心能力。
- 客户控制: 构建可观测性工具和抽象层,使产品经理能够识别代理失效的具体位置并直接触发模型更新。
- 《财富》500 强集成: 超越 AI 原生初创公司,面向大型既有企业。目标是创建能够观察大型组织(如沃尔玛)内部手工流程,并动态构建代理和模型以自动化这些特定工作流的系统。
除了模型权重,长期愿景还包括优化 “外壳”(模型运行的框架)、提升技能以及增强记忆层,以构建完整的持续学习解决方案。
摘要: Ronak Malde,Trajectory.ai 的首席执行官,讨论了超越静态 AI 模型,转向利用真实用户信号和自蒸馏在法律、金融等专业领域持续改进的活系统。
标题: Trajectory.ai 与企业 AI 持续学习的未来