MiniCPM-V 4.6 版本說明 / 新功能

MiniCPM-V 4.6 是一款 13 億參數的視覺模型，旨在讓本地 AI 代理能處理視覺資料——如螢幕截圖、PDF 與影片——而不必承擔大型多模態模型的 VRAM 負擔或雲端 API 的延遲。它優先考慮邊緣部署與 token 效率，適合在需要頻繁呼叫工具與視覺輸入的代理迴圈中使用，避免快速耗盡上下文預算。

模型架構與規格

MiniCPM-V 4.6 結合了 SigLIP 2-400 視覺編碼器與 Qwen 3.5 0.8B 語言模型。主要技術規格包括：

參數量： 總計 13 億參數。
授權條款： Apache 2.0（完全開放權重）。
上下文窗口： 最多 262K token，支援單張圖片、多張圖片與影片輸入。
部署支援： 相容於 vLLM、SGLang、Llama CPP 與 Ollama，並提供標準格式（含 GGUF）的量化變體。
行動支援： 包含 iOS、Android 與 Harmony OS 的示例應用與裝置端適配程式碼。

效能與智慧基準

在 Artificial Analysis Intelligence Index 上，MiniCPM-V 4.6 獲得 13 分，約為 GPT-4o 智慧的四分之一。儘管規模較小，它仍優於尺寸超過兩倍的模型，例如 Ministral 3B 與 Qwen 3.5 0.8B。

在視覺推理方面，該模型在 MMU Pro 基準上表現卓越，分數高於所有其他 20 億參數以下的開放權重模型。雖然不打算取代 Gemini 等前沿模型於高精度生產環境或複雜的瀏覽器任務，但它為子代理任務提供了高效的替代方案。

Token 效率與視覺壓縮

Token 效率是 MiniCPM-V 4.6 的主要優勢，特別適用於每個視覺輸入都會消耗上下文預算的代理工作流。

降低 Token 消耗： 該模型在 Artificial Analysis Intelligence Index 套件上使用約 540 萬輸出 token，約為非推理版 Qwen 3.5 0.8B 的 1/19，亦是其推理版的 1/43。
彈性壓縮模式： 使用者可在推理時切換兩種視覺 token 壓縮模式：
- 16 倍壓縮： 為影片處理與最高效率而優化。
- 4 倍壓縮： 為細緻圖像細節與 OCR 任務而優化。

功能能力與測試

MiniCPM-V 4.6 在多項視覺任務上展現出強大能力，雖然表現會因配置而異：

視覺問答 (VQA) 與 OCR

文件分析： 模型能從發票與訂單收據中抽取資料，例如辨識特定商品（如「Coke Zero」）及其價格。
手寫辨識： 模型成功從手寫醫療收據中抽取藥名與劑量（毫克），這在小型視覺模型中通常相當困難。
細節解析： 使用 4 倍下採樣模式相較於 16 倍模式，能顯著提升 OCR 與細部圖像分析的結果。

影片理解

模型能描述影片中的一般動作，例如足球比賽，辨識隊名與球的移動。但在極為具體的細節或精確得分上可能會有困難。

思考與非思考模式

非思考： 回應較快、較為基礎。
思考（Chain-of-Thought）： 產生更詳細的說明與更佳的數學推理（例如先列出收據上的各項費用再求和）。思考模式亦提升影片理解任務的描述準確度。

代理使用案例總結

MiniCPM-V 4.6 最適合作為大型代理系統中的專門視覺元件。開發者不必為所有文字與視覺任務都使用龐大的多模態模型，而是使用輕量的文字模型處理一般推理，僅在需要處理圖像或影片時觸發 MiniCPM-V 4.6。此方式可在本地部署時節省 VRAM 並降低延遲。

SUMMARY: MiniCPM-V 4.6 是一款 13 億參數的視覺模型，設計上著重於邊緣部署與代理工作流，具備高 token 效率與彈性的視覺 token 壓縮功能。

MiniCPM-V 4.6 版本說明 / 新功能

MiniCPM-V 4.6 版本說明 / 新功能

模型架構與規格

效能與智慧基準

Token 效率與視覺壓縮

功能能力與測試

視覺問答 (VQA) 與 OCR

影片理解

思考與非思考模式

代理使用案例總結

Sources