MiniCPM-V 4.6 发布说明 / 新功能

MiniCPM-V 4.6 发布说明 / 新功能

MiniCPM-V 4.6 是一个 13 亿参数的视觉模型,旨在让本地 AI 代理能够处理视觉数据——如截图、PDF 和视频——而无需大型多模态模型的显存开销或托管 API 的延迟。它侧重于边缘部署和 token 效率,适合在需要频繁调用工具和视觉输入的代理循环中使用,否则会耗尽上下文预算。

模型架构与规格

MiniCPM-V 4.6 使用 SigLIP 2-400 视觉编码器与 Qwen 3.5 0.8B 语言模型的组合。关键技术规格包括:

  • 参数量: 总计 13 亿参数。
  • 许可证: Apache 2.0(完全开源权重)。
  • 上下文窗口: 最多 262K token,支持单图、多图和视频输入。
  • 部署支持: 兼容 vLLM、SGLang、Llama CPP 和 Ollama,提供标准格式(包括 GGUF)的量化变体。
  • 移动端支持: 包含 iOS、Android 和 Harmony OS 的示例应用和设备端适配代码。

性能与智能基准

在人工分析智能指数(Artificial Analysis Intelligence Index)上,MiniCPM-V 4.6 得分 13,约为 GPT-4o 智能水平的四分之一。尽管体积小,它仍然超越了体积超过两倍的模型,如 Ministral 3B 模型和 Qwen 3.5 0.8B 模型。

在视觉推理方面,该模型在 MMU Pro 基准上表现出色,得分高于所有其他 20 亿参数以下的开源权重模型。虽然并非旨在取代 Gemini 等前沿模型用于高精度生产环境或复杂的浏览器任务,但它为子代理任务提供了高效的替代方案。

Token 效率与视觉压缩

Token 效率是 MiniCPM-V 4.6 的主要优势,尤其适用于每个视觉输入都会消耗上下文预算的代理工作流。

  • 降低 Token 消耗: 在人工分析智能指数套件上,该模型使用约 540 万输出 token,约为非推理版 Qwen 3.5 0.8B 的 1/19,推理版的 1/43。
  • 灵活的压缩模式: 推理时用户可在两种视觉 token 压缩模式之间切换:
    • 16 倍压缩: 为视频处理和最高效率优化。
    • 4 倍压缩: 为细粒度图像细节和 OCR 任务优化。

功能能力与测试

MiniCPM-V 4.6 在多种视觉任务上表现出色,尽管不同配置下性能有所差异:

视觉问答(VQA)与 OCR

  • 文档分析: 能从发票和订单收据中提取数据,例如识别特定商品(如 “Coke Zero”)及其对应费用。
  • 手写识别: 能成功提取手写医疗收据中的药品名称和剂量(毫克),这对小型视觉模型而言传统上较为困难。
  • 细节分辨率: 使用 4 倍下采样模式相比 16 倍模式显著提升 OCR 与细粒度图像分析的效果。

视频理解

  • 模型能够描述视频中的一般动作,如足球比赛,识别球队名称和球的运动。但在某些情况下可能难以捕捉高度具体的细节或准确的比分。

思考模式 vs. 非思考模式

  • 非思考: 响应更快,提供基础答案。
  • 思考(Chain-of-Thought): 给出更详细的解释并提升数学推理能力(例如在汇总收据费用前先列出各项费用)。思考模式同样提升了视频理解任务的描述准确性。

代理使用场景概述

MiniCPM-V 4.6 最适合作为大型代理系统中的专用视觉组件使用。开发者可以在所有文本和视觉任务上使用轻量级文本模型进行通用推理,仅在需要处理图像或视频时调用 MiniCPM-V 4.6。此方式可在本地部署中节省显存并降低延迟。

SUMMARY: MiniCPM-V 4.6 是一个 13 亿参数的视觉模型,专为边缘部署和代理工作流设计,具备高 token 效率和灵活的视觉 token 压缩能力。

TITLE: MiniCPM-V 4.6 发布说明 / 新功能

Sources