MiniCPM5-1B: 邁向 1B 認知核心的一步

認知核心的概念

MiniCPM5-1B 的設計理念與「認知核心」哲學一致——即小型模型（理想情況下約為 1B 參數）應該剝離大量的百科全書式知識，轉而專注於推理、工具使用以及外部資訊檢索的能力。這種方法使模型能夠在各種硬體上高效運行，包括幾年前的智慧型手機、瀏覽器以及基於 CPU 的應用程式。

模型規格與架構

MiniCPM5-1B 是一個利用 Llama-style 架構的 1B 密集模型。關鍵技術規格包括：

Context Window: 128K tokens。
License: Apache 2.0。
Training Pipeline: OpenBMB 已發布了三種版本的模型：
- Base Model: 在網路數據上進行預訓練，包括已發布的 "ultrafine web" 和數學數據集。
- SFT Model: 在 4000 億個 tokens 上進行監督式微調（Supervised fine-tuned），包括 200B Deep Thinking SFT 和 200B hybrid SFT。
- Fully Trained Model: 結合了監督式微調、強化學習（RL）以及 on-policy distillation。

On-policy distillation 特別用於提升數學、程式碼和指令遵循能力的評分，同時減少小型模型產生過長且低品質回應的傾向。

性能與基準測試

Token 效率與幻覺

與較大的推理同儕模型相比，MiniCPM5-1B 展示了顯著的 token 效率。根據 Artificial Analysis 的數據，在特定基準測試中，該模型使用的 tokens 比 Qwen 3.5 2B（推理版本）少 31 倍，比非推理版本少 8 倍。

在懲罰幻覺的 AA omniscience 基準測試中，MiniCPM5-1B 得分為 -1，表現顯著優於 Qwen 0.8B 和 MiniCPM V4.6。這表明該模型在識別「自己不知道答案」方面比「編造答案」做得更好，這是可靠的工具調用（tool calling）和函數執行（function execution）的關鍵特質。

Agentic 能力與工具使用

MiniCPM5-1B 在其規模下展現了強大的 Agentic 任務表現：

單次與重複工具調用: 成功處理基礎函數調用（例如 get_weather）以及用於查找多個資訊片段的重複調用。
多步推理: 能夠進行貨幣轉換以及基礎的搜尋與回應任務（mini-RAG）。
限制: 模型在處理極長路徑的 agentic 軌跡時（例如需要 12 次以上工具調用）會感到吃力，此時成功率會變得不穩定。

實際應用與演示

由於其佔用的資源極小，MiniCPM5-1B 非常適合用於「mini harnesses」——即為原本不具備智慧功能的硬體增加智慧功能的小型專用應用程式。

Edge Home Harness: 一個基於 Rust 的實作，用於智慧家庭場景。
MiniCPM Desk Pet: 一個 Electron app，在本地運行 GGUF 版本的模型，允許使用者透過更換 LoRA adapters 來改變模型的個性。

限制與觀察

儘管在工具使用方面表現出色，MiniCPM5-1B 也展現了極小模型常見的幾項限制：

指令遵循: 模型在簡單的角色扮演（persona adoption）方面可能會遇到困難（例如：無法始終如一地記住系統提示詞中分配的角色名稱）。
複雜泛化能力: 它在需要高泛化能力的任務中表現不佳，例如生成複雜的 SVG 或現代 HTML 頁面。
思維迴圈 (Thought Loops): 在 GSM8K 和 MMLU 等基準測試中，模型偶爾會進入「思維迴圈」，即無限期地重複 tokens，或者產生過長且未能在達到最終答案前就超過 token 限制的思維鏈。

"長期思維鏈的限制並非一個極易修復的問題，即使對於 GPT 模型也是如此... [OpenAI] 的主要目標之一一直致力於能夠在獲得正確答案的同時... 減少思維鏈的長度，以實際達成目標。"

結論

MiniCPM5-1B 是一個非常適合純文字、裝置端應用程式的高能力 1B 模型。其優勢在於其能力可以作為工具使用和 agentic 工作流的推理引擎，而非知識庫，這使其成為邊緣運算中「認知核心」架構的首選候選者。

MiniCPM5-1B: 邁向 respect 1B 認知核心的一步