PowerInfer: 它是什么，解决了什么问题以及为什么它正受到关注

PowerInfer: 它是什么，解决了什么问题以及为什么它正受到关注

它解决了什么问题

PowerInfer 旨在通过使用单个消费级 GPU，在个人电脑上实现高速大语言模型 (LLM) 推理。它通过减少 GPU 显存需求并最大限度地减少 CPU 和 GPU 之间的数据传输，解决了消费级硬件的内存限制问题，从而使大型模型运行速度比 llama.cpp 等传统引擎更快。

工作原理

PowerInfer 利用了“激活局部性”的概念，该概念观察到在不同的输入下，一小部分“热神经元”会持续被激活，而“冷神经元”的激活频率较低。该引擎采用 CPU/GPU 混合方法：

热神经元 会被预加载到 GPU 中以实现快速访问。
冷神经元 则在 CPU 上进行计算。

它通过使用自适应预测器和神经元感知稀疏算子进一步优化此过程，以提高计算效率。

适用人群

它适用于希望在消费级硬件 (Windows, Linux, 或 macOS) 上本地部署 LLM，并且需要低延迟推理，而无需服务器级 GPU (如 A100) 的用户。

亮点

混合执行：在 CPU 和 GPU 之间无缝拆分工作负载，以平衡内存和计算。
消费级 GPU 支持：针对单 GPU 设置进行了优化，与 llama.cpp 相比实现了显著的加速 (在某些模型上高达 11 倍)。
广泛的兼容性：支持 ReLU-sparse 模型，包括 Llama 2 系列、Falcon-40B 和 Bamboo-7B。
灵活的部署：提供 VRAM 预算分配和 INT4 量化选项，以进一步降低资源需求。

Sources

undefinedTiiny-AI/PowerInfer