chitu: 一款支援多樣化硬體與 CPU-GPU 混合部署、適用於超大型 LLM 的生產級推論引擎

chitu: 一款支援多樣化硬體與 CPU-GPU 混合部署、適用於超大型 LLM 的生產級推論引擎

它解決了什麼問題

Chitu 是一款生產級的大型模型推論引擎，旨在彌合小規模 AI 實驗與大規模企業級部署之間的差距。它解決了對高效能推論框架的需求，該框架需在不同硬體配置下具備靈活性，並具備足夠的穩定性來處理併發的生產流量。

運作原理

Chitu 提供了一種可擴展的推論解決方案，支援從純 CPU 和單 GPU 配置到大規模集群的廣泛硬體。它實現了高效的量化算子（例如從 FP4 轉換為 FP8/BF16），以便在有限的硬體上部署如 DeepSeek-R1 671B 等超大型模型，並支援 CPU+GPU 異質混合推論。

目標對象

它是為需要跨多樣化硬體環境（包括 NVIDIA GPU 以及各種國產中國 AI 晶片，如 Ascend、Moore Threads、Muxi、Haiguang）部署 LLM（例如 DeepSeek、Qwen、GLM 和 Kimi）的企業與開發者而打造的。

重點特色

廣泛的硬體相容性：支援 NVIDIA GPU、國產中國 AI 晶片以及僅限 CPU 的部署。
可擴展的部署：從單卡配置到大規模集群皆可靈活擴展。
進階量化技術：包含用於 FP4 和 FP8 線上轉換的高效算子，以支援超大型模型。
異質推論：支援 CPU+GPU 混合推論，以便在單張顯卡上執行超大型模型。

Sources

undefinedthu-pacman/chitu