MiniCPM-V 4.6 リリースノート / 新機能

MiniCPM-V 4.6 は、1.3 億パラメータのビジョンモデルで、スクリーンショット、PDF、動画などの視覚データを、巨大なマルチモーダルモデルが必要とする VRAM の負荷やホスト API の遅延なしにローカル AI エージェントが処理できるよう設計されています。エッジ展開性とトークン効率を重視しており、頻繁なツール呼び出しや視覚入力でコンテキスト予算が枯渇しがちなエージェントループへの組み込みに適しています。

モデルアーキテクチャと仕様

MiniCPM-V 4.6 は、SigLIP 2-400 ビジョンエンコーダと Qwen 3.5 0.8B 言語モデルの組み合わせを使用しています。主な技術仕様は以下の通りです。

パラメータ数: 合計 1.3 億パラメータ。
ライセンス: Apache 2.0（完全オープンウェイト）。
コンテキストウィンドウ: 最大 262K トークン。単一画像、複数画像、動画入力に対応。
デプロイサポート: vLLM、SGLang、Llama CPP、Ollama と互換性があり、標準フォーマット（GGUF を含む）で量子化バリアントが利用可能。
モバイルサポート: iOS、Android、Harmony OS 用のサンプルアプリとオンデバイス適応コードを含む。

パフォーマンスとインテリジェンスベンチマーク

Artificial Analysis Intelligence Index において MiniCPM-V 4.6 はスコア 13 を獲得し、これは GPT-4o のインテリジェンスの約 1/4 に相当します。サイズは小さいものの、Ministral 3B や Qwen 3.5 0.8B といった、2 倍以上のサイズのモデルを上回ります。

視覚推論においては MMU Pro ベンチマークで非常に高い評価を受け、2 億パラメータ未満のオープンウェイトモデルの中で最高スコアを記録しています。Gemini などの最先端モデルを高精度の本番環境や複雑なブラウザ操作タスクで置き換えることは想定していませんが、サブエージェントタスク向けの非常に効率的な代替手段を提供します。

トークン効率と視覚圧縮

トークン効率は MiniCPM-V 4.6 の主要な利点であり、特にエージェントワークフローで視覚入力がコンテキスト予算を消費する場面で有効です。

トークン消費削減: Artificial Analysis Intelligence Index スイートで約 540 万出力トークンしか使用せず、非推論版 Qwen 3.5 0.8B の約 19 倍、推論版の約 43 倍少ないです。
柔軟な圧縮モード: 推論時に 2 つの視覚トークン圧縮モードを切り替え可能です。
- 16 倍圧縮: 動画処理と最大効率化に最適化。
- 4 倍圧縮: 細かい画像ディテールや OCR タスクに最適化。

機能とテスト結果

MiniCPM-V 4.6 は複数の視覚タスクで強力な能力を示しますが、構成によりパフォーマンスは変動します。

ビジュアル質問応答 (VQA) と OCR

文書解析: 請求書や注文領収書から特定アイテム（例: "Coke Zero"）やその金額を抽出可能。
手書き文字認識: 手書き医療領収書から薬剤名や投与量（ミリグラム）を正確に抽出。小型ビジョンモデルでは従来困難だったタスクです。
ディテール解像度: 4 倍ダウンサンプリングモードを使用すると、OCR や詳細画像解析の結果が 16 倍モードに比べて大幅に向上します。

動画理解

サッカーの試合など一般的なアクションを記述し、チーム名やボールの動きを特定できます。ただし、非常に具体的なディテールや正確な得点情報の把握は苦手な場合があります。

思考モード vs. 非思考モード

非思考: 高速で基本的な応答。
思考（Chain-of-Thought）: 詳細な説明と優れた数式推論を提供（例: 領収書の項目ごとに費用を列挙し合計）。思考モードは動画理解タスクの記述精度も向上させます。

エージェント向けユースケースのまとめ

MiniCPM-V 4.6 は、より大規模なマルチモーダルモデルをすべてのテキスト・ビジョンタスクに使用する代わりに、軽量テキストモデルで一般的な推論を行い、画像や動画の処理が必要なときにのみ MiniCPM-V 4.6 を呼び出す、という形での利用が最適です。このアプローチによりローカル展開時の VRAM 使用量を抑え、レイテンシを低減できます。

MiniCPM-V 4.6 リリースノート / 新機能

MiniCPM-V 4.6 リリースノート / 新機能

モデルアーキテクチャと仕様

パフォーマンスとインテリジェンスベンチマーク

トークン効率と視覚圧縮

機能とテスト結果

ビジュアル質問応答 (VQA) と OCR

動画理解

思考モード vs. 非思考モード

エージェント向けユースケースのまとめ

Sources