MiniCPM5-1B: 1B 認知コアへの一歩

MiniCPM5-1B: 1B 認知コアへの一歩

認知コアのコンセプト

MiniCPM5-1Bは、「認知コア」という哲学に基づいて設計されています。これは、小規模なモデル(理想的には1Bパラメータ程度)が、膨大な百科事典的な知識を削ぎ落とし、代わりに推論、ツールの使用、および外部情報の検索能力に焦点を当てるべきであるという考え方です。このアプローチにより、モデルは、数年前のスマートフォン、ブラウザ、CPUベースのアプリケーションなど、幅広いハードウェア上で効率的に動作することが可能になります。

モデルの仕様とアーキテクチャ

MiniCPM5-1Bは、Llamaスタイルのアーキテクチャを利用した1Bのデンスモデルです。主な技術仕様は以下の通りです:

  • Context Window: 128K tokens。
  • License: Apache 2.0。
  • Training Pipeline: OpenBMBは、モデルの3つのバージョンをリリースしています:
    • Base Model: 公開された「ultrafine web」および数学データセットを含む、ウェブデータで事前学習されています。
    • SFT Model: 400 billion tokens(200B Deep Thinking SFTおよび200B hybrid SFT)で教師あり微調整されています。
    • Fully Trained Model: 教師あり微調整、強化学習(RL)、およびon-policy蒸留を組み込んでいます。

On-policy蒸留は、数学、コード、および指示への追従性を高めると同時に、小規模モデルが過度に長い、低品質な回答を生成する傾向を抑制するために特別に使用されています。

パフォーマンスとベンチマーク

トークン効率とハルシネーション

MiniCPM5-1Bは、より大きな推論モデルと比較して、顕著なトークン効率を示しています。Artificial Analysisによると、特定のベンチマークにおいて、このモデルはQwen 3.5 2B(推論バージョン)よりも31倍少ないトークンを使用し、非推論バージョンよりも8倍少ないトークンを使用します。

ハルシネーションをペナルティとするAA omniscienceベンチマークにおいて、MiniCPM5-1Bは-1を記録し、Qwen 0.8BおよびMiniCPM V4.6を大幅に outperform しています。これは、モデルが答えを知らないときに捏造するのではなく、答えを知らないことを認識する能力に優れていることを示しており、信頼性の高いツール呼び出しや関数実行にとって極めて重要な特性です。

エージェント機能とツールの使用

MiniCPM5-1Bは、そのサイズに対して、エージェントタスクにおいて強力なパフォーマンスを発揮します:

  • Single and Repeated Tool Calls: 基本的な関数呼び出し(例:get_weather)や、複数の情報を検索するための繰り返しの呼び出しを正常に処理します。
  • Multi-step Reasoning: 通貨換算や、基本的な検索・応答タスク(mini-RAG)が可能です。
  • Constraints: モデルは、非常に長いエージェントの軌跡(例:12回以上のツール呼び出しを必要とするタスク)において苦戦し、成功率が不安定になります。

実用的なアプリケーションとデモ

その小さなフットプリントにより、MiniCPM5-1Bは「mini harnesses」—すなわち、以前は非インテリジェントであったハードウェアに知能を付加する、小型で特化型のアプリケーションに適しています。

  • Edge Home Harness: スマートホームのシナリオ向けにRustベースで実装されています。
  • MiniCPM Desk Pet: モデルのGGUFバージョンをローカルで実行するElectronアプリであり、ユーザーがLoRAアダプターを入れ替えることでモデルの性格を変化させることができます。

限界と観察事項

ツールの使用における強みがある一方で、MiniCPM5-1Bは、非常に小規模なモデルに共通するいくつかの限界を示しています:

  • Instruction Following: モデルは単純なペルソナの採用(例:システムプロンプトで指定された名前を継続的に記憶することに失敗する)に苦戦することがあります。
  • Complex Generalization: 複雑なSVGの生成や、現代的なHTMLページの生成など、高い汎用化能力を求めるタスクでは失敗します。
  • Thought Loops: GSM8KやMMLUのようなベンチマークにおいて、モデルは時折「thought loops(思考のループ)」に陥り、トークンを無期限に繰り返したり、最終的な答えに到達せずにトークン制限を超えて過度に長い思考の連鎖を生成したりすることがあります。

"長時間の思考の連鎖(chain of thought)を制限することは、GPTモデルにとっても非常に簡単な問題ではありません... [OpenAI]の主な目標の一つは、正しい答えに到達できる能力を維持しつつ... そこに至るまでの思考の連鎖の量を減らすことです。"

結論

MiniCPM5-1Bは、テキストのみのオンデバイス・アプリケーション向けに、非常に高い能力を持つ1Bモデルです。その強みは、知識ベースとしてではなく、ツールの使用やエージェント的ワークフローのための推論エンジンとして機能する能力にあります。これにより、エッジ・コンピューティングにおける「認知コア」アーキテクチャの主要な候補となります。

Sources