chitu: 多様なハードウェアとハイブリッドCPU-GPUデプロイメントをサポートする、大規模LLM向けのプロダクショングレード推論エンジン

chitu: 多様なハードウェアとハイブリッドCPU-GPUデプロイメントをサポートする、大規模LLM向けのプロダクショングレード推論エンジン

何を解決するか

Chituは、小規模なAI実験と大規模なエンタープライズデプロイメントの間のギャップを埋めるために設計された、プロダクショングレードの大規模モデル推論エンジンです。異なるハードウェア構成に対して柔軟であり、かつ並行するプロダクショントラフィックを処理できるほど安定した、高性能な推論フレームワークのニーズに応えます。

仕組み

Chituは、純粋なCPUや単一GPU構成から大規模なクラスターまで、幅広いハードウェアをサポートするスケーラブルな推論ソリューションを提供します。量子化(FP4からFP8/BF16への変換など)のための効率的なオペレーターを実装しており、CPU+GPUのヘテロジニアスなハイブリッド推論のサポートを含む、限られたハードウェア上でDeepSeek-R1 671Bのような大規模なモデルをデプロイすることを可能にします。

対象ユーザー

NVIDIA GPUや、様々な中国国内のAIチップ(Ascend, Moore Threads, Muxi, Haiguang)を含む、多様なハードウェア環境においてLLM(DeepSeek, Qwen, GLM, Kimiなど)をデプロイする必要がある企業や開発者向けに構築されています。

ハイライト

  • 幅広いハードウェア互換性: NVIDIA GPU、中国国内のAIチップ、およびCPUのみのデプロイメントをサポートします。
  • スケーラブルなデプロイメント: 単一カード構成から大規模なクラスターまで、柔軟にスケーリング可能です。
  • 高度な量子化: 非常に大規模なモデルをサポートするために、FP4およびFP8のオンライン変換用の効率的なオペレーターが含まれています。
  • ヘテロジニアス推論: 単一のカード上で大規模なモデルを実行するために、ハイブリッドCPU+GPU推論をサポートします。

Sources