ktransformers: 超大規模MoEモデル向けに最適化されたCPU-GPUハイブリッド推論・微調整フレームワーク

ktransformers: 超大規模MoEモデル向けに最適化されたCPU-GPUハイブリッド推論・微調整フレームワーク

何を解決するか

ktransformersは、超大規模なMixture-of-Experts (MoE) モデルを実行する際のハードウェアの制限に対処します。CPU-GPUのヘテロジニアス(異種混合)コンピューティングを活用することで、高価で大量のGPU VRAMへの依存を減らし、コンシューマー向けハードウェアで高性能な推論と微調整を行うことを可能にします。

仕組み

このフレームワークは、ワークロードをGPUとCPUに分割するハイブリッドコンピューティングアプローチを採用しています。主な技術的実装には以下が含まれます:

  • Heterogeneous Expert Placement: 「ホット」なエキスパートは速度のためにGPUに保持され、「コールド」なエキスパートはCPUにオフロードされます。
  • CPU-Optimized Kernels: Intel AMXおよびAVX512/AVX2に最適化されたカーネルを使用して、CPU上でのINT4/INT8量子化推論を加速します。
  • Memory Management: MoE推論のためのNUMA対応メモリ管理と、3層(GPU-CPU-Disk)のプレフィックスキャッシュ再利用システムを実装しています。
  • SFT Integration: LLaMA-Factoryと統合されており、従来のZeRO-Offload手法よりも大幅に高速な速度で大規模MoEモデルの微調整を可能にします。

対象ユーザー

  • エンタープライズ級のGPUクラスターを持たない、超大規模MoEモデル(DeepSeek-V3/R1など)を扱う研究者や開発者。
  • コンシューマー向けハードウェア(例:RTX 4090)で最先端のLLMを実行したいユーザー。
  • CPU/GPUのハイブリッドメモリを使用して、大規模モデルを効率的に微調整する方法を探しているMLエンジニア。

ハイライト

  • Hybrid Inference: 限られたVRAMで大規模なモデルを実行するために、CPU-GPUヘテロジニアスコンピューティングをサポート。
  • Broad Hardware Support: NVIDIA GPU、AMD GPU (ROCm)、Intel Arc GPU、およびAscend NPUと互換性があります。
  • Quantization: CPU上でのINT4/INT8、およびGPU上でのGPTQ/FP8をサポート。
  • Fine-Tuning Speed: MoE SFTワークロードにおいて、ZeRO-Offloadと比較して6〜12倍のトレーニング速度向上を提供。
  • Framework Integration: SGLangとの統合のためのクリーンなPython API。

Sources