chitu: 다양한 하드웨어와 하이브리드 CPU-GPU 배포를 지원하는 대규모 LLM용 프로덕션급 추론 엔진
chitu: 다양한 하드웨어와 하이브리드 CPU-GPU 배포를 지원하는 대규모 LLM용 프로덕션급 추론 엔진
해결하는 문제
Chitu는 소규모 AI 실험과 대규모 기업용 배포 사이의 간극을 메우기 위해 설계된 프로덕션급 대규모 모델 추론 엔진입니다. 다양한 하드웨어 구성에 대해 유연하며, 동시 프로덕션 트래픽을 처리할 수 있을 만큼 안정적인 고성능 추론 프레임워크에 대한 요구를 해결합니다.
작동 방식
Chitu는 순수 CPU 및 단일 GPU 설정부터 대규모 클러스터에 이르기까지 광범위한 하드웨어를 지원하는 확장 가능한 추론 솔루션을 제공합니다. 양자화(예: FP4에서 FP8/BF16 변환)를 위한 효율적인 연산자를 구현하여 DeepSeek-R1 671B와 같은 대규모 모델을 CPU+GPU 이종 하이브리드 추론 지원을 포함하여 제한된 하드웨어에서도 배포할 수 있도록 합니다.
대상 사용자
NVIDIA GPU와 다양한 중국 국산 AI 칩(Ascend, Moore Threads, Muxi, Haiguang)을 포함한 다양한 하드웨어 환경에서 LLM(DeepSeek, Qwen, GLM, Kimi 등)을 배포해야 하는 기업 및 개발자를 위해 구축되었습니다.
주요 특징
- 광범위한 하드웨어 호환성: NVIDIA GPU, 중국 국산 AI 칩 및 CPU 전용 배포를 지원합니다.
- 확장 가능한 배포: 단일 카드 설정부터 대규모 클러스터까지 유연하게 확장할 수 있습니다.
- 고급 양자화: 매우 큰 모델을 지원하기 위해 FP4 및 FP8 온라인 변환을 위한 효율적인 연산자를 포함합니다.
- 이종 추론: 단일 카드에서 대규모 모델을 실행하기 위해 하이브리드 CPU+GPU 추론을 지원합니다.
Sources
- undefinedthu-pacman/chitu