MiniCPM-V 4.6 版本說明 / 新功能

MiniCPM-V 4.6 版本說明 / 新功能

MiniCPM-V 4.6 是一款 13 億參數的視覺模型,旨在讓本地 AI 代理能處理視覺資料——如螢幕截圖、PDF 與影片——而不必承擔大型多模態模型的 VRAM 負擔或雲端 API 的延遲。它優先考慮邊緣部署與 token 效率,適合在需要頻繁呼叫工具與視覺輸入的代理迴圈中使用,避免快速耗盡上下文預算。

模型架構與規格

MiniCPM-V 4.6 結合了 SigLIP 2-400 視覺編碼器與 Qwen 3.5 0.8B 語言模型。主要技術規格包括:

  • 參數量: 總計 13 億參數。
  • 授權條款: Apache 2.0(完全開放權重)。
  • 上下文窗口: 最多 262K token,支援單張圖片、多張圖片與影片輸入。
  • 部署支援: 相容於 vLLM、SGLang、Llama CPP 與 Ollama,並提供標準格式(含 GGUF)的量化變體。
  • 行動支援: 包含 iOS、Android 與 Harmony OS 的示例應用與裝置端適配程式碼。

效能與智慧基準

在 Artificial Analysis Intelligence Index 上,MiniCPM-V 4.6 獲得 13 分,約為 GPT-4o 智慧的四分之一。儘管規模較小,它仍優於尺寸超過兩倍的模型,例如 Ministral 3B 與 Qwen 3.5 0.8B。

在視覺推理方面,該模型在 MMU Pro 基準上表現卓越,分數高於所有其他 20 億參數以下的開放權重模型。雖然不打算取代 Gemini 等前沿模型於高精度生產環境或複雜的瀏覽器任務,但它為子代理任務提供了高效的替代方案。

Token 效率與視覺壓縮

Token 效率是 MiniCPM-V 4.6 的主要優勢,特別適用於每個視覺輸入都會消耗上下文預算的代理工作流。

  • 降低 Token 消耗: 該模型在 Artificial Analysis Intelligence Index 套件上使用約 540 萬輸出 token,約為非推理版 Qwen 3.5 0.8B 的 1/19,亦是其推理版的 1/43。
  • 彈性壓縮模式: 使用者可在推理時切換兩種視覺 token 壓縮模式:
    • 16 倍壓縮: 為影片處理與最高效率而優化。
    • 4 倍壓縮: 為細緻圖像細節與 OCR 任務而優化。

功能能力與測試

MiniCPM-V 4.6 在多項視覺任務上展現出強大能力,雖然表現會因配置而異:

視覺問答 (VQA) 與 OCR

  • 文件分析: 模型能從發票與訂單收據中抽取資料,例如辨識特定商品(如「Coke Zero」)及其價格。
  • 手寫辨識: 模型成功從手寫醫療收據中抽取藥名與劑量(毫克),這在小型視覺模型中通常相當困難。
  • 細節解析: 使用 4 倍下採樣模式相較於 16 倍模式,能顯著提升 OCR 與細部圖像分析的結果。

影片理解

  • 模型能描述影片中的一般動作,例如足球比賽,辨識隊名與球的移動。但在極為具體的細節或精確得分上可能會有困難。

思考與非思考模式

  • 非思考: 回應較快、較為基礎。
  • 思考(Chain-of-Thought): 產生更詳細的說明與更佳的數學推理(例如先列出收據上的各項費用再求和)。思考模式亦提升影片理解任務的描述準確度。

代理使用案例總結

MiniCPM-V 4.6 最適合作為大型代理系統中的專門視覺元件。開發者不必為所有文字與視覺任務都使用龐大的多模態模型,而是使用輕量的文字模型處理一般推理,僅在需要處理圖像或影片時觸發 MiniCPM-V 4.6。此方式可在本地部署時節省 VRAM 並降低延遲。

SUMMARY: MiniCPM-V 4.6 是一款 13 億參數的視覺模型,設計上著重於邊緣部署與代理工作流,具備高 token 效率與彈性的視覺 token 壓縮功能。

TITLE: MiniCPM-V 4.6 版本說明 / 新功能

Sources