ktransformers: 超大規模MoEモデル向けに最適化されたCPU-GPUハイブリッド推論・微調整フレームワーク
ktransformers: 超大規模MoEモデル向けに最適化されたCPU-GPUハイブリッド推論・微調整フレームワーク
何を解決するか
ktransformersは、超大規模なMixture-of-Experts (MoE) モデルを実行する際のハードウェアの制限に対処します。CPU-GPUのヘテロジニアス(異種混合)コンピューティングを活用することで、高価で大量のGPU VRAMへの依存を減らし、コンシューマー向けハードウェアで高性能な推論と微調整を行うことを可能にします。
仕組み
このフレームワークは、ワークロードをGPUとCPUに分割するハイブリッドコンピューティングアプローチを採用しています。主な技術的実装には以下が含まれます:
- Heterogeneous Expert Placement: 「ホット」なエキスパートは速度のためにGPUに保持され、「コールド」なエキスパートはCPUにオフロードされます。
- CPU-Optimized Kernels: Intel AMXおよびAVX512/AVX2に最適化されたカーネルを使用して、CPU上でのINT4/INT8量子化推論を加速します。
- Memory Management: MoE推論のためのNUMA対応メモリ管理と、3層(GPU-CPU-Disk)のプレフィックスキャッシュ再利用システムを実装しています。
- SFT Integration: LLaMA-Factoryと統合されており、従来のZeRO-Offload手法よりも大幅に高速な速度で大規模MoEモデルの微調整を可能にします。
対象ユーザー
- エンタープライズ級のGPUクラスターを持たない、超大規模MoEモデル(DeepSeek-V3/R1など)を扱う研究者や開発者。
- コンシューマー向けハードウェア(例:RTX 4090)で最先端のLLMを実行したいユーザー。
- CPU/GPUのハイブリッドメモリを使用して、大規模モデルを効率的に微調整する方法を探しているMLエンジニア。
ハイライト
- Hybrid Inference: 限られたVRAMで大規模なモデルを実行するために、CPU-GPUヘテロジニアスコンピューティングをサポート。
- Broad Hardware Support: NVIDIA GPU、AMD GPU (ROCm)、Intel Arc GPU、およびAscend NPUと互換性があります。
- Quantization: CPU上でのINT4/INT8、およびGPU上でのGPTQ/FP8をサポート。
- Fine-Tuning Speed: MoE SFTワークロードにおいて、ZeRO-Offloadと比較して6〜12倍のトレーニング速度向上を提供。
- Framework Integration: SGLangとの統合のためのクリーンなPython API。
Sources
- undefinedkvcache-ai/ktransformers