ktransformers: 초거대 MoE 모델에 최적화된 CPU-GPU 하이브리드 추론 및 미세 조정 프레임워크

ktransformers: 초거대 MoE 모델에 최적화된 CPU-GPU 하이브리드 추론 및 미세 조정 프레임워크

해결하는 문제

ktransformers는 초거대 Mixture-of-Experts (MoE) 모델을 실행할 때 발생하는 하드웨어 제한 문제를 해결합니다. CPU-GPU 이기종 컴퓨팅을 활용하여 고성능 추론 및 미세 조정을 소비자급 하드웨어에서 수행할 수 있도록 하며, 값비싼 대용량 GPU VRAM에 대한 의존도를 낮춥니다.

작동 방식

이 프레임워크는 워크로드를 GPU와 CPU로 분할하는 하이브리드 컴퓨팅 방식을 채택합니다. 주요 기술적 구현 사항은 다음과 같습니다:

이기종 전문가 배치 (Heterogeneous Expert Placement): 속도를 위해 "hot" 전문가(expert)는 GPU에 유지하고, "cold" 전문가는 CPU로 오프로드합니다.
CPU 최적화 커널 (CPU-Optimized Kernels): Intel AMX 및 AVX512/AVX2에 최적화된 커널을 사용하여 CPU에서 INT4/INT8 양자화 추론을 가속화합니다.
메모리 관리 (Memory Management): MoE 추론을 위한 NUMA 인식 메모리 관리를 구현하고, 3계층(GPU-CPU-Disk) 프리픽스 캐시 재사용 시스템을 제공합니다.
SFT 통합 (SFT Integration): LLaMA-Factory와 통합되어 기존 ZeRO-Offload 방식보다 훨씬 빠른 속도로 대규모 MoE 모델의 미세 조정을 가능하게 합니다.

대상 사용자

기업급 GPU 클러스터가 부족한 초거대 MoE 모델(예: DeepSeek-V3/R1)을 다루는 연구자 및 개발자.
소비자급 하드웨어(예: RTX 4090s)에서 최첨단 LLM을 실행하고자 하는 사용자.
하이브리드 CPU/GPU 메모리를 사용하여 대규모 모델을 효율적으로 미세 조정하는 방법을 찾는 ML 엔지니어.

주요 특징

하이브리드 추론 (Hybrid Inference): 제한된 VRAM에서 대규모 모델을 실행하기 위해 CPU-GPU 이기종 컴퓨팅을 지원합니다.
광범위한 하드웨어 지원: NVIDIA GPU, AMD GPU (ROCm), Intel Arc GPU, 및 Ascend NPU와 호환됩니다.
양자화 (Quantization): CPU에서 INT4/INT8을 지원하며, GPU에서 GPTQ/FP8을 지원합니다.
미세 조정 속도 (Fine-Tuning Speed): MoE SFT 워크로드에 대해 ZeRO-Offload 대비 6-12배 빠른 학습 속도를 제공합니다.
프레임워크 통합 (Framework Integration): SGLang과의 통합을 위한 깔끔한 Python API를 제공합니다.

Sources

undefinedkvcache-ai/ktransformers