MiniCPM5-1B: 迈向 1B 认知核心的一步

认知核心的概念

MiniCPM5-1B 的设计理念与“认知核心”哲学相契合——即一个小模型（理想情况下约为 1B 参数）应当剥离大量的百科全书式知识，转而专注于推理、工具使用以及外部信息检索的能力。这种方法使模型能够在广泛的硬件上高效运行，包括几年前的智能手机、浏览器以及基于 CPU 的应用程序。

MiniCPM5-1B 是一个采用 Llama 风格架构的 1B 稠密模型。关键技术规格包括：

上下文窗口： 128K tokens。
许可证： Apache 2.0。
训练流水线： OpenBMB 发布了三个版本的模型：
- Base Model： 在网络数据上进行预训练，包括已发布的 "ultrafine web" 和数学数据集。
- SFT Model： 在 400 billion tokens 上进行监督微调（200B Deep Thinking SFT 和 200B hybrid SFT）。
- Fully Trained Model： 结合了监督微调、强化学习（RL）和 on-policy 蒸馏。

On-policy 蒸馏专门用于提升数学、代码和指令遵循方面的得分，同时减少小模型产生过长且低质量响应的倾向。

与较大的推理同类模型相比，MiniCPM5-1B 展示了显著的 token 效率。根据 Artificial Analysis 的数据，在特定基准测试中，该模型使用的 token 数量比 Qwen 3.5 2B（推理版本）少 31 倍，比非推理版本少 8 倍。

在惩罚幻觉的 AA omniscience 基准测试中，MiniCPM5-1B 得分为 -1，显著优于 Qwen 0.8B 和 MiniCPM V4.6。这表明该模型在识别“自己不知道答案”方面表现更好，而不是编造答案，这是可靠的工具调用和函数执行的关键特征。

相对于其规模，MiniCPM5-1B 在 agent 任务中表现强劲：

由于其极小的占用空间，MiniCPM5-1B 非常适合“mini harnesses”——即为原本不具备智能的硬件增加智能的小型专用应用。

尽管在工具使用方面表现出色，MiniCPM5-1B 也表现出了一些极小模型常见的局限性：

指令遵循： 模型在简单的角色扮演方面可能会遇到困难（例如，无法持续记住系统提示词中分配的名字）。
复杂泛化： 它在需要高泛化能力的任务中表现不佳，例如生成复杂的 SVG 或现代 HTML 页面。
思维循环： 在 GSM8K 和 MMLU 等基准测试中，模型偶尔会进入“思维循环”，即无限重复 token 或产生超出 token 限制且无法得出最终答案的极长思维链。

"限制长思维链并不是一个即使是 GPT 模型也极易解决的问题……[OpenAI] 的一个主要目标一直是能够依然得出正确答案……但减少实现该目标所需的思维链长度。"

MiniCPM5-1B 是一个非常出色的、适用于仅文本、端侧应用的 1B 模型。其优势在于能够作为工具使用和 agent 工作流的推理引擎，而非知识库，这使其成为边缘计算中“认知核心”架构的首选候选者。