chitu: 支持多种硬件和 CPU-GPU 混合部署的生产级大规模 LLM 推理引擎

chitu: 支持多种硬件和 CPU-GPU 混合部署的生产级大规模 LLM 推理引擎

它解决了什么问题

Chitu 是一个生产级大模型推理引擎,旨在弥合小规模 AI 实验与大规模企业级部署之间的差距。它解决了对高性能推理框架的需求,该框架需要能够灵活适应不同的硬件配置,并具备处理并发生产流量的稳定性。

工作原理

Chitu 提供了一种可扩展的推理解决方案,支持广泛的硬件,从纯 CPU 和单 GPU 配置到大规模集群。它实现了高效的量化算子(例如从 FP4 到 FP8/BF16 的转换),从而能够在有限的硬件上部署 DeepSeek-R1 671B 等超大规模模型,并支持 CPU+GPU 异构混合推理。

适用对象

它专为需要在各种硬件环境(包括 NVIDIA GPU 和各种国产 AI 芯片,如 Ascend、Moore Threads、Muxi、Haiguang)中部署 LLM(如 DeepSeek、Qwen、GLM 和 Kimi)的企业和开发者而构建。

亮点

  • 广泛的硬件兼容性:支持 NVIDIA GPU、国产 AI 芯片以及仅 CPU 部署。
  • 可扩展的部署:支持从单卡配置到大规模集群的灵活扩展。
  • 高级量化:包含用于 FP4 和 FP8 在线转换的高效算子,以支持超大规模模型。
  • 异构推理:支持 CPU+GPU 混合推理,以便在单卡上运行大规模模型。

Sources