PowerInfer: 它是什么,解决了什么问题以及为什么它正受到关注

PowerInfer: 它是什么,解决了什么问题以及为什么它正受到关注

它解决了什么问题

PowerInfer 旨在通过使用单个消费级 GPU,在个人电脑上实现高速大语言模型 (LLM) 推理。它通过减少 GPU 显存需求并最大限度地减少 CPU 和 GPU 之间的数据传输,解决了消费级硬件的内存限制问题,从而使大型模型运行速度比 llama.cpp 等传统引擎更快。

工作原理

PowerInfer 利用了“激活局部性”的概念,该概念观察到在不同的输入下,一小部分“热神经元”会持续被激活,而“冷神经元”的激活频率较低。 该引擎采用 CPU/GPU 混合方法:

  • 热神经元 会被预加载到 GPU 中以实现快速访问。
  • 冷神经元 则在 CPU 上进行计算。

它通过使用自适应预测器和神经元感知稀疏算子进一步优化此过程,以提高计算效率。

适用人群

它适用于希望在消费级硬件 (Windows, Linux, 或 macOS) 上本地部署 LLM,并且需要低延迟推理,而无需服务器级 GPU (如 A100) 的用户。

亮点

  • 混合执行:在 CPU 和 GPU 之间无缝拆分工作负载,以平衡内存和计算。
  • 消费级 GPU 支持:针对单 GPU 设置进行了优化,与 llama.cpp 相比实现了显著的加速 (在某些模型上高达 11 倍)。
  • 广泛的兼容性:支持 ReLU-sparse 模型,包括 Llama 2 系列、Falcon-40B 和 Bamboo-7B。
  • 灵活的部署:提供 VRAM 预算分配和 INT4 量化选项,以进一步降低资源需求。

Sources