MiniCPM5-1B: 迈向 1B 认知核心的一步

MiniCPM5-1B: 迈向 1B 认知核心的一步

认知核心的概念

MiniCPM5-1B 的设计理念与“认知核心”哲学相契合——即一个小模型(理想情况下约为 1B 参数)应当剥离大量的百科全书式知识,转而专注于推理、工具使用以及外部信息检索的能力。这种方法使模型能够在广泛的硬件上高效运行,包括几年前的智能手机、浏览器以及基于 CPU 的应用程序。

模型规格与架构

MiniCPM5-1B 是一个采用 Llama 风格架构的 1B 稠密模型。关键技术规格包括:

  • 上下文窗口: 128K tokens。
  • 许可证: Apache 2.0。
  • 训练流水线: OpenBMB 发布了三个版本的模型:
    • Base Model: 在网络数据上进行预训练,包括已发布的 "ultrafine web" 和数学数据集。
    • SFT Model: 在 400 billion tokens 上进行监督微调(200B Deep Thinking SFT 和 200B hybrid SFT)。
    • Fully Trained Model: 结合了监督微调、强化学习(RL)和 on-policy 蒸馏。

On-policy 蒸馏专门用于提升数学、代码和指令遵循方面的得分,同时减少小模型产生过长且低质量响应的倾向。

性能与基准测试

Token 效率与幻觉

与较大的推理同类模型相比,MiniCPM5-1B 展示了显著的 token 效率。根据 Artificial Analysis 的数据,在特定基准测试中,该模型使用的 token 数量比 Qwen 3.5 2B(推理版本)少 31 倍,比非推理版本少 8 倍。

在惩罚幻觉的 AA omniscience 基准测试中,MiniCPM5-1B 得分为 -1,显著优于 Qwen 0.8B 和 MiniCPM V4.6。这表明该模型在识别“自己不知道答案”方面表现更好,而不是编造答案,这是可靠的工具调用和函数执行的关键特征。

Agent 能力与工具使用

相对于其规模,MiniCPM5-1B 在 agent 任务中表现强劲:

  • 单次与重复工具调用: 成功处理基础函数调用(例如 get_weather)并能进行重复调用以查询多条信息。
  • 多步推理: 能够进行货币转换以及基础的搜索与响应任务(mini-RAG)。
  • 限制: 该模型在处理运行时间极长的 agent 轨迹时(例如需要 12 次以上工具调用的任务)表现吃力,此时成功率会变得不稳定。

实际应用与演示

由于其极小的占用空间,MiniCPM5-1B 非常适合“mini harnesses”——即为原本不具备智能的硬件增加智能的小型专用应用。

  • Edge Home Harness: 一个用于智能家居场景的 Rust 实现。
  • MiniCPM Desk Pet: 一个运行本地 GGUF 版本模型的 Electron 应用,允许用户通过更换 LoRA 适配器来改变模型的个性。

局限性与观察

尽管在工具使用方面表现出色,MiniCPM5-1B 也表现出了一些极小模型常见的局限性:

  • 指令遵循: 模型在简单的角色扮演方面可能会遇到困难(例如,无法持续记住系统提示词中分配的名字)。
  • 复杂泛化: 它在需要高泛化能力的任务中表现不佳,例如生成复杂的 SVG 或现代 HTML 页面。
  • 思维循环: 在 GSM8K 和 MMLU 等基准测试中,模型偶尔会进入“思维循环”,即无限重复 token 或产生超出 token 限制且无法得出最终答案的极长思维链。

"限制长思维链并不是一个即使是 GPT 模型也极易解决的问题……[OpenAI] 的一个主要目标一直是能够依然得出正确答案……但减少实现该目标所需的思维链长度。"

结论

MiniCPM5-1B 是一个非常出色的、适用于仅文本、端侧应用的 1B 模型。其优势在于能够作为工具使用和 agent 工作流的推理引擎,而非知识库,这使其成为边缘计算中“认知核心”架构的首选候选者。

Sources