airllm: 這是什麼、解決了什麼問題以及為什麼它正受到關注

airllm: 這是什麼、解決了什麼問題以及為什麼它正受到關注

解決了什麼問題

AirLLM 允許使用者在硬體資源非常有限的情況下,對龐大的大型語言模型 (LLMs) 進行推理。它特別能夠在單個 4GB GPU 上運行 70B 參數模型,並在 8GB VRAM 上運行 405B 參數模型(例如 Llama 3.1),且預設情況下不需要進行量化、蒸餾或剪枝。

運作原理

該專案將原始模型分解,並將其按層 (layer-wise) 儲存在磁碟上。在推理過程中,它會依序載入這些層,以管理記憶體使用量。它也支援選用的區塊量化 (block-wise quantization)(4-bit 或 8-bit),以減少磁碟上的模型權重大小,藉此透過減少磁碟載入瓶頸來將推理速度提升高達 3 倍。

對象是誰

想要在消費級硬體或低階通用電腦上運行尖端大型模型的開發者與研究人員。

重點摘要

  • 低 VRAM 需求: 在 4GB GPU 上運行 70B 模型,並在 8GB VRAM 上運行 405B 模型。
  • 廣泛的模型支援: 相容於 Llama 3.1, Qwen 2.5, ChatGLM, Mistral 等模型。
  • 效能提升: 選用的區塊量化可將推理速度提升高達 3 倍。
  • 跨平台: 支援 Linux 與 MacOS (Apple Silicon)。
  • 記憶體優化: 包含預取 (prefetching) 技術,以重疊模型載入與計算過程。

Sources