开源权重与闭源 LLM 之间的差距

开源与闭源 LLM 之间的性能差距

开源权重 LLM 与闭源前沿模型之间的差距表现为通用能力的持续滞后，尽管像编程这样的特定领域正在经历快速收敛。虽然单一指标分析可能表明到 2026 年底将实现完全收敛，但通过多个基准测试进行更广泛的观察可以发现，开源权重模型通常比闭源前沿模型落后约五个月。

衡量 LLM 的质量是困难的，因为不同的基准测试对开源权重模型的轨迹预测结果大相径庭。

使用 Artificial Analysis Intelligence Index——一个旨在评估整体能力的头条指数——数据显示，开源权重与闭源模型之间的差距在 2024 年夏季开始缩小。对这一趋势进行线性投影，表明差距将在 2026 年 12 月 3 日达到零。

当分析扩展到 18 个不同的基准测试时，情况发生了变化。这些多样化指标下每月开源前沿滞后情况的箱线图显示，最佳拟合线几乎完全是平的，这表明在测量期间，滞后时间始终保持在不足五个月左右。

并非所有能力都在以相同的速率演进。开源权重模型最显著的改进发生在编程基准测试中，差距已从 15 个月缩小到仅一两个月。相比之下，大多数其他数据集显示差距适度增加或滞后停滞不前，这表明编程是开源权重模型追赶最有效的领域。

围绕开源权重与闭源分歧的社区讨论突出了影响这些性能轨迹的几个系统性因素：

一些分析师认为，基于美国的闭源模型通过创建由庞大的“教师模型”生成的、由于规模过大而无法用于交互式流量的高质量合成数据来维持其领先地位。在这种观点下，开源权重模型——特别是来自中国实验室的模型——通常通过优化现有模型或从这些前沿模型中获取数据来取得进展，而不是发明新的数据系统。

闭源“模型”通常不仅仅是权重，而是整个后端系统。这使得闭源提供商能够通过外部系统增强模型，从而在基准测试中获得更高的分数，而开源权重模型仅基于权重本身进行评估。

对于开源权重模型的长期生存能力存在担忧，因为它们目前是由私人组织而非社区拥有的基础设施生产的。

"水龙头可以随时被关闭。在出现某种形式的‘社区拥有的硬件’之前，开源权重模型始终面临被停产的风险。"

开源权重模型的作用通常被视为一种不对称策略。一些贡献者认为，中国实验室利用开源来竞争并分担计算负担，而美国政府对非美国人访问前沿模型的限制，可能会在无意中加速对竞争性开源权重替代方案的依赖和开发。