ktransformers: 超大規模MoEモデル向けに最適化されたCPU-GPUハイブリッド推論・微調整フレームワーク

ktransformers: 超大規模MoEモデル向けに最適化されたCPU-GPUハイブリッド推論・微調整フレームワーク

何を解決するか

ktransformersは、超大規模なMixture-of-Experts (MoE) モデルを実行する際のハードウェアの制限に対処します。CPU-GPUのヘテロジニアス（異種混合）コンピューティングを活用することで、高価で大量のGPU VRAMへの依存を減らし、コンシューマー向けハードウェアで高性能な推論と微調整を行うことを可能にします。

仕組み

このフレームワークは、ワークロードをGPUとCPUに分割するハイブリッドコンピューティングアプローチを採用しています。主な技術的実装には以下が含まれます：

Heterogeneous Expert Placement: 「ホット」なエキスパートは速度のためにGPUに保持され、「コールド」なエキスパートはCPUにオフロードされます。
CPU-Optimized Kernels: Intel AMXおよびAVX512/AVX2に最適化されたカーネルを使用して、CPU上でのINT4/INT8量子化推論を加速します。
Memory Management: MoE推論のためのNUMA対応メモリ管理と、3層（GPU-CPU-Disk）のプレフィックスキャッシュ再利用システムを実装しています。
SFT Integration: LLaMA-Factoryと統合されており、従来のZeRO-Offload手法よりも大幅に高速な速度で大規模MoEモデルの微調整を可能にします。

対象ユーザー

エンタープライズ級のGPUクラスターを持たない、超大規模MoEモデル（DeepSeek-V3/R1など）を扱う研究者や開発者。
コンシューマー向けハードウェア（例：RTX 4090）で最先端のLLMを実行したいユーザー。
CPU/GPUのハイブリッドメモリを使用して、大規模モデルを効率的に微調整する方法を探しているMLエンジニア。

ハイライト

Hybrid Inference: 限られたVRAMで大規模なモデルを実行するために、CPU-GPUヘテロジニアスコンピューティングをサポート。
Broad Hardware Support: NVIDIA GPU、AMD GPU (ROCm)、Intel Arc GPU、およびAscend NPUと互換性があります。
Quantization: CPU上でのINT4/INT8、およびGPU上でのGPTQ/FP8をサポート。
Fine-Tuning Speed: MoE SFTワークロードにおいて、ZeRO-Offloadと比較して6〜12倍のトレーニング速度向上を提供。
Framework Integration: SGLangとの統合のためのクリーンなPython API。

Sources

undefinedkvcache-ai/ktransformers