PowerInfer: とは何なのか、どのような問題を解決し、なぜ注目を集めているのか

PowerInfer: とは何なのか、どのような問題を解決し、なぜ注目を集めているのか

解決する問題

PowerInferは、単一のコンシューマー向けGPUを使用して、パーソナルコンピュータ上で高速な大規模言語モデル(LLM)の推論を可能にするように設計されています。GPUメモリの要求量を削減し、CPUとGPU間のデータ転送を最小限に抑えることで、コンシューマー向けハードウェアのメモリ制限に対処し、llama.cppのような従来のエンジンよりも大きなモデルを高速に実行できるようにします。

仕組み

PowerInferは、「活性化の局所性(activation locality)」という概念を活用しています。これは、異なる入力に対しても「ホットニューロン(hot neurons)」と呼ばれる小さなサブセットが継続的に活性化される一方で、「コールドニューロン(cold neurons)」は活性化される頻度が低いという観察に基づいています。このエンジンは、CPU/GPUハイブリッドアプローチを採用しています:

  • ホットニューロンは、迅速なアクセスのためにGPUにプリロードされます。
  • コールドニューロンは、CPUで計算されます。

さらに、適応型予測器とニューロンを意識したスパース演算子を使用して、このプロセスを最適化し、計算効率を高めています。

対象ユーザー

コンシューマー向けハードウェア(Windows、Linux、またはmacOS)上でLLMをローカルに展開したいと考えており、サーバーグレードのGPU(A100など)を必要とせずに低遅延の推論を必要とするユーザーを対象としています。

ハイライト

  • ハイブリッド実行: メモリと計算のバランスをとるために、ワークロードをCPUとGPUの間でシームレスに分割します。
  • C-grade GPUサポート: 単一GPU構成に最適化されており、llama.cppと比較して大幅な高速化を実現します(特定のモデルで最大11倍)。
  • 幅広い互換性: Llama 2 ファミリー、Falcon-40B、および Bamboo-7B を含む ReLU-sparse モデルをサポートしています。
  • 柔軟な展開: VRAM予算の管理と INT4 量子化のオプションを提供し、リソース要件をさらに削減します。

Sources