whichllm: システムスペックと実世界のベンチマークに基づいて最適なローカルLLMをランク付けする、ハードウェアを意識した推奨エンジン

whichllm: システムスペックと実世界のベンチマークに基づいて最適なローカルLLMをランク付けする、ハードウェアを意識した推奨エンジン

何を解決するか

特定のハードウェアに最適なローカルの大規模言語モデル(LLM)を見つけることは、単にモデルをVRAMに収めるだけでは最高品質や最速の選択肢であることが保証されないため、しばしば困難です。whichllmは、システムハードウェアを自動的に検出し、単なるサイズではなく、実際のベンチマーク性能、推定速度、およびハードウェアの互換性に基づいてHuggingFaceのモデルをランク付けすることで、この問題を解決します。

仕組み

このツールは、ユーザーのGPU、CPU、およびRAMを分析して、VRAM要件(重み、KVキャッシュ、およびオーバーヘッドを含む)とメモリ帯域幅に基づく生成速度を推定します。HuggingFace APIから最新のモデルデータを取得し、それを複数のベンチマークソース(LiveBench、Chatbot Arena、およびOpen LLM Leaderboardなど)と統合します。その後、スコアリングエンジンが、ベンチマークの品質、モデルのサイズ、量子化によるペナルティ、および実行時の適合性(例:フルGPU vs 部分的なオフロード)を組み合わせてモデルをランク付けします。

対象ユーザー

ハードウェアの使用率を最適化したいローカルLLMの実行ユーザー、および特定のGPUをシミュレートしてどのモデルを実行できるかを確認したいハードウェア購入を計画している人々を対象としています。

ハイライト

  • ハードウェアの自動検出: NVIDIA、AMD、Intel、およびApple Siliconをサポートしています。
  • エビデンスに基づくランク付け: 単純なサイズによるヒューリスティックではなく、信頼性に基づいた減衰を用いた実際のベンチマークスコアを使用します。
  • コマンド実行: whichllm run を含んでおり、推奨されたモデルを即座にダウンロードしてチャットを開始できます。また、whichllm snippet を使用して、すぐに使えるPythonコードを生成できます。
  • ハードウェア計画: 特定のモデルに必要なGPUを決定するための plan および upgrade コマンドを備えています。現在のハードウェアと潜在的なアップグレードを比較することも可能です。
  • ライブデータ: 最新のモデル推奨を行うために、HuggingFace APIと直接統合されています。

Sources