chitu: 一款支援多樣化硬體與 CPU-GPU 混合部署、適用於超大型 LLM 的生產級推論引擎
chitu: 一款支援多樣化硬體與 CPU-GPU 混合部署、適用於超大型 LLM 的生產級推論引擎
它解決了什麼問題
Chitu 是一款生產級的大型模型推論引擎,旨在彌合小規模 AI 實驗與大規模企業級部署之間的差距。它解決了對高效能推論框架的需求,該框架需在不同硬體配置下具備靈活性,並具備足夠的穩定性來處理併發的生產流量。
運作原理
Chitu 提供了一種可擴展的推論解決方案,支援從純 CPU 和單 GPU 配置到大規模集群的廣泛硬體。它實現了高效的量化算子(例如從 FP4 轉換為 FP8/BF16),以便在有限的硬體上部署如 DeepSeek-R1 671B 等超大型模型,並支援 CPU+GPU 異質混合推論。
目標對象
它是為需要跨多樣化硬體環境(包括 NVIDIA GPU 以及各種國產中國 AI 晶片,如 Ascend、Moore Threads、Muxi、Haiguang)部署 LLM(例如 DeepSeek、Qwen、GLM 和 Kimi)的企業與開發者而打造的。
重點特色
- 廣泛的硬體相容性:支援 NVIDIA GPU、國產中國 AI 晶片以及僅限 CPU 的部署。
- 可擴展的部署:從單卡配置到大規模集群皆可靈活擴展。
- 進階量化技術:包含用於 FP4 和 FP8 線上轉換的高效算子,以支援超大型模型。
- 異質推論:支援 CPU+GPU 混合推論,以便在單張顯卡上執行超大型模型。
Sources
- undefinedthu-pacman/chitu