DeepSeek DSpark 推理优化实现 60–85% 的生成加速

DeepSeek 的 DSpark 将生成速度提升高达 85%

DeepSeek 宣布开源发布 DSpark，这是一套推理时优化方案，与基准实现相比，可将大语言模型 (LLM) 的生成速度提升 60% 至 85%。这种加速减少了为 LLM 提供服务时的延迟和计算成本，使实时应用变得更加实用。

这些组件在 GitHub 上以开源许可证发布，允许开发者将其直接集成到现有的推理流水线中。

根据 DSpark 论文（在公告中附有链接），作者在几种流行的 LLM 上评估了这些优化。报告的 60%–85% 生成时间缩减 在以下方面均有观察到：

论文中包含了详细的表格，将基准运行时间与 DSpark 增强后的运行时间进行比较，确认了在不牺牲输出质量的情况下实现了一致的加速。

更快的 token 生成速度直接转化为：

对于大规模部署大模型的组织而言，这些收益尤其关键，因为微小的效率提升都可以带来实质性的成本节省。

该仓库包含针对 PyTorch 和 TensorFlow 等流行框架的示例脚本，简化了采用过程。

虽然 Hacker News 的讨论尚未产生评论，但该公告已吸引了显著关注，正如其在 HN 上的高分所反映的那样。DSpark 的开源性质邀请社区进行贡献和进一步调优，这可能会将加速效果扩展到更多的模型架构和硬件加速器。

DeepSeek 的 DSpark 为 LLM 生成提供了 实质性的 60%–85% 加速，提供了一条通往更高效推理的开源途径。通过降低延迟和成本，DSpark 有助于缩小尖端语言模型与现实世界、生产级应用之间的差距。