whichllm:一個具備硬體感知能力推薦引擎,根據系統規格與真實世界基準測試為最佳在地 LLM 進行排名
whichllm:一個具備硬體感知能力的推薦引擎,根據系統規格與真實世界基準測試為最佳在地 LLM 進行排名
它解決了什麼問題
針對特定硬體尋找最佳的在地大型語言模型 (LLM) 通常很困難,因為僅僅將模型放入 VRAM 並不保證它是最高品質或最快的選擇。whichllm 透過自動偵測系統硬體,並根據實際的基準測試效能、預估速度以及硬體相容性(而非僅僅是模型大小)來對 HuggingFace 的模型進行排名,從而解決了這個問題。
運作原理
該工具會分析使用者的 GPU、CPU 與 RAM,以根據記憶體頻寬預估 VRAM 需求(包括權重、KV cache 與額外開銷)以及生成速度。它會從 HuggingFace API 獲取即時的模型數據,並將其與多個基準測試來源(例如 LiveBench、Chatbot Arena 與 Open LLM Leaderboard)進行整合。接著,評分引擎會結合基準測試品質、模型大小、量化懲罰以及執行時的適配度(例如:全 GPU 執行 vs. 部分卸載)來對模型進行排名。
適用對象
它專為想要優化硬體使用的在地 LLM 使用者,以及計畫購買硬體、想要模擬特定 GPU 以查看可以執行哪些模型的用戶所設計。
重點功能
- 硬體自動偵測:支援 NVIDIA、AMD、Intel 與 Apple Silicon。
- 基於證據的排名:使用真實的基準測試分數並結合基於信心度的衰減機制,而非簡單的大小啟發式算法。
- 命令執行:包含
whichllm run可立即下載並與推薦的模型進行對話,以及whichllm snippet可生成即插即用的 Python 程式碼。 - 硬體規劃:具備
plan與upgrade命令,用以確定特定模型所需的 GPU,或將目前的硬體與潛在的升級方案進行比較。 - 即時數據:直接與 HuggingFace API 整合,以提供最新的模型推薦。
Sources
- undefinedAndyyyy64/whichllm