airllm: とは何なのか、どのような問題を解決し、なぜ注目を集めているのか

airllm: とは何なのか、どのような問題を解決し、なぜ注目を集めているのか

解決する問題

AirLLMは、非常に限られたハードウェアを使用して、巨大な大規模言語モデル(LLM)の推論を実行することを可能にします。具体的には、デフォルトで量子化、蒸留、または枝刈りを必要とせずに、単一の4GB GPUで70Bパラメータモデルを、8GBのVRAMで405Bパラメータモデル(Llama 3.1など)を実行することを可能にします。

仕組み

このプロジェクトは、元のモデルを分解し、ディスク上にレイヤーごとに保存します。推論中、メモリ使用量を管理するために、これらのレイヤーを順次ロードします。また、オプションでブロック単位の量子化(4-bitまたは8-bit)をサポートしており、ディスク上のモデル重みのサイズを削減できます。これにより、ディスク読み込みのボトルネックを軽減し、推論を最大3倍高速化できます。

対象ユーザー

コンシューマー向けハードウェアや低スペックの汎用コンピュータ上で、最先端の大規模モデルを実行したい開発者や研究者。

ハイライト

  • 低VRAM要件: 4GB GPUで70Bモデルを、8GB VRAMで405Bモデルを実行可能。
  • 幅広いモデルサポート: Llama 3.1, Qwen 2.5, ChatGLM, Mistral, その他に対応。
  • パフォーマンス向上: オプションのブロック単位の量子化により、推論を最大3倍高速化。
  • クロスプラットフォーム: LinuxおよびMacOS (Apple Silicon) をサポート。
  • メモリ最適化: モデルのロードと計算をオーバーラップさせるためのプリフェッチ機能を含む。

Sources