OpenAI 研究策略:缩放法则、推理与评估危机
OpenAI 研究策略:缩放法则、推理与评估危机
核心论点:缩放与推理
AI 的进步继续遵循由缩放法则(scaling laws)驱动的指数级轨迹,但前沿领域已从简单的预训练转向了世界知识获取与推理能力的复杂结合。虽然有人认为预训练已经遇到了瓶颈,但 OpenAI 坚持认为,更好的工程化和数据策展能够持续解锁新的缩放边界,将目标推向 AGI。
缩放法则与“预训练已死”的论调
Mark Chen 坚决不同意预训练已死或缩放法则已进入平台期的观点。他认为,在大型语言模型(LLMs)的发展史上,瓶颈经常被认为是无法逾越的,但最终都会通过研究洞察或工程改进被克服。
- 指数级的持续性: Chen 认为模型能力的指数级增长将会持续,因为从历史上看,每一个感知到的极限都通过更精细的数据工程和缩放被绕过。
- 工程的作用: 突破边界通常在于通过对细节的严谨关注和更好的基础设施来“榨取系统的潜力”。
对推理的战略押注 (o1)
推理已成为 OpenAI 最重要的研究押注之一,o1 模型的发布便是明证。这一转变代表了超越传统“预训练加后训练”范式的移动。
- 克服惯性: 实现推理能力需要来自 Jakub Pachocki 和 Ilia Sutskever 等领导者的重大内部引导和信念,因为现有的预训练范式已经非常成功。
- 客观任务 vs. 主观任务: 强化学习(RL)在具有“硬事实”的领域(如数学和计算机科学)最为有效,因为在这些领域正确性是二元的。RL 在创意写作等主观领域表现较为吃力,因为专家之间的评分标准不一致。
“评估危机”与基准测试最大化 (Benchmaxing)
AI 评估领域正面临日益严重的危机,即标准的基准测试(如 SAT)已趋于饱和或发生泄露,导致了所谓的“benchmaxing”现象。
- Benchmaxing: 当模型过度拟合特定基准测试的分布,或在类似的实例上进行训练时,就会发生这种情况,导致高分并不能反映真实的泛化能力。
- 对抗性评估: 为了应对这一问题,OpenAI 将创建评估体系的团队与优化模型的团队分开。评估团队的激励机制是构建模型无法解决的测试,通过这种对抗过程确保能力测量的真实性。
- 外部合作伙伴: OpenAI 与外部组织合作,在硬科学和数学领域制定金标准基准测试,以避免内部偏差。
研究品味与 AI 研究的未来
“研究品味”(Research taste)——即识别哪些方向有前景的直觉——是顶尖研究人员的关键差异化因素。虽然有人认为这需要博士学位,但 Chen 建议这可以通过对现有论文的严谨复现来培养。
- “氛围研究员”的兴起: 该领域正在向编排(orchestration)转型。随着模型能够处理实现和执行,人类研究员的主要价值将转向构思(ideation)和高层级的引导。
- 端到端 AI 研究: OpenAI 的长期目标是让模型执行端到端的研究,包括具备开发自身“品味”并独立发现通用基准测试中新颖解决方案的能力。
- 应对失败: OpenAI 的“alpha”特质之一是承担高风险押注。Chen 指出,只要想法保持合理且具有雄心,许多研究人员在取得“超级成功”之前可能会经历一系列失败。
技术实现与长程任务
实现 AGI 需要模型能够处理长程、现实世界的任务,这涉及的不只是增加上下文窗口。
- 锯齿状智能 (Jagged Intelligence): 模型经常表现出“锯齿状”的能力,在处理复杂任务(如 IMO 数学题)时表现出色,但在人类觉得容易的平凡任务上却会失败。这通常是由于缺乏现实世界的上下文。
- 上下文管理: 除了原生的长上下文窗口,Chen 还强调了“压缩”(compaction)——即压缩洞察或工作状态——作为一种重要的工程捷径,用于在不承担原生原语极端成本的情况下管理长程学习。