airllm: 它是什么，解决了什么问题以及为什么它正受到关注

airllm: 它是什么，解决了什么问题以及为什么它正受到关注

它解决了什么问题

AirLLM 允许用户使用非常有限的硬件在庞大的大语言模型 (LLMs) 上进行推理。它特别能够实现在单个 4GB GPU 上运行 70B 参数模型，以及在 8GB 显存上运行 405B 参数模型（如 Llama 3.1），且默认情况下不需要量化、蒸馏或剪枝。

它是如何工作的

该项目将原始模型分解并按层将其保存在磁盘上。在推理过程中，它会按顺序加载这些层以管理内存使用情况。它还支持可选的分块量化 (4-bit 或 8-bit) 以减小磁盘上的模型权重大小，通过减少磁盘加载瓶颈，这可以将推理速度提高多达 3 倍。

它是为谁准备的

希望在消费级硬件或低端通用计算机上运行最先进的大模型的开发人员和研究人员。

亮点

低显存要求: 在 4GB GPU 上运行 70B 模型，在 8GB 显存上运行 405B 模型。
广泛的模型支持: 兼容 Llama 3.1, Qwen 2.5, ChatGLM, Mistral 等。
性能提升: 可选的分块量化可实现高达 3 倍的推理速度提升。
跨平台: 支持 Linux 和 MacOS (Apple Silicon)。
内存优化: 包括预取技术以重叠模型加载和计算过程。

Sources

undefinedlyogavin/airllm