PowerInfer:它是什麼、解決了什麼問題以及為何受到關注

PowerInfer:它是什麼、解決了什麼問題以及為何受到關注

它解決了什麼

PowerInfer 旨在讓個人電腦使用單顆消費級 GPU 進行高速大型語言模型(LLM)推理。它透過降低 GPU 記憶體需求與減少 CPU 與 GPU 之間的資料傳輸,解決了消費硬體的記憶體限制,使大型模型的執行速度快於傳統引擎(如 llama.cpp)。

它的運作原理

PowerInfer 利用「激活局部性」的概念,觀察到在不同輸入中,只有一小部分「熱神經元」會持續被激活,而「冷神經元」則較少被觸發。引擎採用 CPU/GPU 混合方式:

  • 熱神經元 事先載入 GPU,以便快速存取。
  • 冷神經元 在 CPU 上計算。

此外,PowerInfer 透過自適應預測器與神經元感知的稀疏運算子進一步優化此流程,提高計算效率。

目標使用者

此工具適合想在消費級硬體(Windows、Linux 或 macOS)上本地部署 LLM,且需要低延遲推理而不必使用伺服器級 GPU(如 A100)的使用者。

重點特色

  • 混合執行:在 CPU 與 GPU 之間無縫分配工作負載,以平衡記憶體與計算資源。
  • C 級 GPU 支援:針對單 GPU 設定進行最佳化,在某些模型上可比 llama.cpp 快 11 倍。
  • 廣泛相容性:支援 ReLU‑稀疏模型,包括 Llama 2 系列、Falcon‑40B 與 Bamboo‑7B。
  • 彈性部署:提供 VRAM 預算與 INT4 量化選項,以進一步降低資源需求。

Sources