MiniCPM-V 4.6 发布说明 / 新功能

MiniCPM-V 4.6 是一个 13 亿参数的视觉模型，旨在让本地 AI 代理能够处理视觉数据——如截图、PDF 和视频——而无需大型多模态模型的显存开销或托管 API 的延迟。它侧重于边缘部署和 token 效率，适合在需要频繁调用工具和视觉输入的代理循环中使用，否则会耗尽上下文预算。

模型架构与规格

MiniCPM-V 4.6 使用 SigLIP 2-400 视觉编码器与 Qwen 3.5 0.8B 语言模型的组合。关键技术规格包括：

在人工分析智能指数（Artificial Analysis Intelligence Index）上，MiniCPM-V 4.6 得分 13，约为 GPT-4o 智能水平的四分之一。尽管体积小，它仍然超越了体积超过两倍的模型，如 Ministral 3B 模型和 Qwen 3.5 0.8B 模型。

在视觉推理方面，该模型在 MMU Pro 基准上表现出色，得分高于所有其他 20 亿参数以下的开源权重模型。虽然并非旨在取代 Gemini 等前沿模型用于高精度生产环境或复杂的浏览器任务，但它为子代理任务提供了高效的替代方案。

Token 效率是 MiniCPM-V 4.6 的主要优势，尤其适用于每个视觉输入都会消耗上下文预算的代理工作流。

降低 Token 消耗： 在人工分析智能指数套件上，该模型使用约 540 万输出 token，约为非推理版 Qwen 3.5 0.8B 的 1/19，推理版的 1/43。
灵活的压缩模式： 推理时用户可在两种视觉 token 压缩模式之间切换：
- 16 倍压缩： 为视频处理和最高效率优化。
- 4 倍压缩： 为细粒度图像细节和 OCR 任务优化。

MiniCPM-V 4.6 在多种视觉任务上表现出色，尽管不同配置下性能有所差异：

非思考： 响应更快，提供基础答案。
思考（Chain-of-Thought）： 给出更详细的解释并提升数学推理能力（例如在汇总收据费用前先列出各项费用）。思考模式同样提升了视频理解任务的描述准确性。

MiniCPM-V 4.6 最适合作为大型代理系统中的专用视觉组件使用。开发者可以在所有文本和视觉任务上使用轻量级文本模型进行通用推理，仅在需要处理图像或视频时调用 MiniCPM-V 4.6。此方式可在本地部署中节省显存并降低延迟。

SUMMARY: MiniCPM-V 4.6 是一个 13 亿参数的视觉模型，专为边缘部署和代理工作流设计，具备高 token 效率和灵活的视觉 token 压缩能力。