MiniCPM5-1B: 邁向 respect 1B 認知核心的一步

MiniCPM5-1B: 邁向 1B 認知核心的一步

認知核心的概念

MiniCPM5-1B 的設計理念與「認知核心」哲學一致——即小型模型(理想情況下約為 1B 參數)應該剝離大量的百科全書式知識,轉而專注於推理、工具使用以及外部資訊檢索的能力。這種方法使模型能夠在各種硬體上高效運行,包括幾年前的智慧型手機、瀏覽器以及基於 CPU 的應用程式。

模型規格與架構

MiniCPM5-1B 是一個利用 Llama-style 架構的 1B 密集模型。關鍵技術規格包括:

  • Context Window: 128K tokens。
  • License: Apache 2.0。
  • Training Pipeline: OpenBMB 已發布了三種版本的模型:
    • Base Model: 在網路數據上進行預訓練,包括已發布的 "ultrafine web" 和數學數據集。
    • SFT Model: 在 4000 億個 tokens 上進行監督式微調(Supervised fine-tuned),包括 200B Deep Thinking SFT 和 200B hybrid SFT。
    • Fully Trained Model: 結合了監督式微調、強化學習(RL)以及 on-policy distillation。

On-policy distillation 特別用於提升數學、程式碼和指令遵循能力的評分,同時減少小型模型產生過長且低品質回應的傾向。

性能與基準測試

Token 效率與幻覺

與較大的推理同儕模型相比,MiniCPM5-1B 展示了顯著的 token 效率。根據 Artificial Analysis 的數據,在特定基準測試中,該模型使用的 tokens 比 Qwen 3.5 2B(推理版本)少 31 倍,比非推理版本少 8 倍。

在懲罰幻覺的 AA omniscience 基準測試中,MiniCPM5-1B 得分為 -1,表現顯著優於 Qwen 0.8B 和 MiniCPM V4.6。這表明該模型在識別「自己不知道答案」方面比「編造答案」做得更好,這是可靠的工具調用(tool calling)和函數執行(function execution)的關鍵特質。

Agentic 能力與工具使用

MiniCPM5-1B 在其規模下展現了強大的 Agentic 任務表現:

  • 單次與重複工具調用: 成功處理基礎函數調用(例如 get_weather)以及用於查找多個資訊片段的重複調用。
  • 多步推理: 能夠進行貨幣轉換以及基礎的搜尋與回應任務(mini-RAG)。
  • 限制: 模型在處理極長路徑的 agentic 軌跡時(例如需要 12 次以上工具調用)會感到吃力,此時成功率會變得不穩定。

實際應用與演示

由於其佔用的資源極小,MiniCPM5-1B 非常適合用於「mini harnesses」——即為原本不具備智慧功能的硬體增加智慧功能的小型專用應用程式。

  • Edge Home Harness: 一個基於 Rust 的實作,用於智慧家庭場景。
  • MiniCPM Desk Pet: 一個 Electron app,在本地運行 GGUF 版本的模型,允許使用者透過更換 LoRA adapters 來改變模型的個性。

限制與觀察

儘管在工具使用方面表現出色,MiniCPM5-1B 也展現了極小模型常見的幾項限制:

  • 指令遵循: 模型在簡單的角色扮演(persona adoption)方面可能會遇到困難(例如:無法始終如一地記住系統提示詞中分配的角色名稱)。
  • 複雜泛化能力: 它在需要高泛化能力的任務中表現不佳,例如生成複雜的 SVG 或現代 HTML 頁面。
  • 思維迴圈 (Thought Loops): 在 GSM8K 和 MMLU 等基準測試中,模型偶爾會進入「思維迴圈」,即無限期地重複 tokens,或者產生過長且未能在達到最終答案前就超過 token 限制的思維鏈。

"長期思維鏈的限制並非一個極易修復的問題,即使對於 GPT 模型也是如此... [OpenAI] 的主要目標之一一直致力於能夠在獲得正確答案的同時... 減少思維鏈的長度,以實際達成目標。"

結論

MiniCPM5-1B 是一個非常適合純文字、裝置端應用程式的高能力 1B 模型。其優勢在於其能力可以作為工具使用和 agentic 工作流的推理引擎,而非知識庫,這使其成為邊緣運算中「認知核心」架構的首選候選者。

Sources