chitu: 支持多种硬件和 CPU-GPU 混合部署的生产级大规模 LLM 推理引擎

chitu: 支持多种硬件和 CPU-GPU 混合部署的生产级大规模 LLM 推理引擎

它解决了什么问题

Chitu 是一个生产级大模型推理引擎，旨在弥合小规模 AI 实验与大规模企业级部署之间的差距。它解决了对高性能推理框架的需求，该框架需要能够灵活适应不同的硬件配置，并具备处理并发生产流量的稳定性。

工作原理

Chitu 提供了一种可扩展的推理解决方案，支持广泛的硬件，从纯 CPU 和单 GPU 配置到大规模集群。它实现了高效的量化算子（例如从 FP4 到 FP8/BF16 的转换），从而能够在有限的硬件上部署 DeepSeek-R1 671B 等超大规模模型，并支持 CPU+GPU 异构混合推理。

适用对象

它专为需要在各种硬件环境（包括 NVIDIA GPU 和各种国产 AI 芯片，如 Ascend、Moore Threads、Muxi、Haiguang）中部署 LLM（如 DeepSeek、Qwen、GLM 和 Kimi）的企业和开发者而构建。

亮点

广泛的硬件兼容性：支持 NVIDIA GPU、国产 AI 芯片以及仅 CPU 部署。
可扩展的部署：支持从单卡配置到大规模集群的灵活扩展。
高级量化：包含用于 FP4 和 FP8 在线转换的高效算子，以支持超大规模模型。
异构推理：支持 CPU+GPU 混合推理，以便在单卡上运行大规模模型。

Sources

undefinedthu-pacman/chitu