whichllm：一個具備硬體感知能力的推薦引擎，根據系統規格與真實世界基準測試為最佳在地 LLM 進行排名

它解決了什麼問題

針對特定硬體尋找最佳的在地大型語言模型 (LLM) 通常很困難，因為僅僅將模型放入 VRAM 並不保證它是最高品質或最快的選擇。whichllm 透過自動偵測系統硬體，並根據實際的基準測試效能、預估速度以及硬體相容性（而非僅僅是模型大小）來對 HuggingFace 的模型進行排名，從而解決了這個問題。

運作原理

該工具會分析使用者的 GPU、CPU 與 RAM，以根據記憶體頻寬預估 VRAM 需求（包括權重、KV cache 與額外開銷）以及生成速度。它會從 HuggingFace API 獲取即時的模型數據，並將其與多個基準測試來源（例如 LiveBench、Chatbot Arena 與 Open LLM Leaderboard）進行整合。接著，評分引擎會結合基準測試品質、模型大小、量化懲罰以及執行時的適配度（例如：全 GPU 執行 vs. 部分卸載）來對模型進行排名。

適用對象

它專為想要優化硬體使用的在地 LLM 使用者，以及計畫購買硬體、想要模擬特定 GPU 以查看可以執行哪些模型的用戶所設計。

重點功能

硬體自動偵測：支援 NVIDIA、AMD、Intel 與 Apple Silicon。
基於證據的排名：使用真實的基準測試分數並結合基於信心度的衰減機制，而非簡單的大小啟發式算法。
命令執行：包含 whichllm run 可立即下載並與推薦的模型進行對話，以及 whichllm snippet 可生成即插即用的 Python 程式碼。
硬體規劃：具備 plan 與 upgrade 命令，用以確定特定模型所需的 GPU，或將目前的硬體與潛在的升級方案進行比較。
即時數據：直接與 HuggingFace API 整合，以提供最新的模型推薦。

whichllm：一個具備硬體感知能力推薦引擎，根據系統規格與真實世界基準測試為最佳在地 LLM 進行排名

whichllm：一個具備硬體感知能力的推薦引擎，根據系統規格與真實世界基準測試為最佳在地 LLM 進行排名

它解決了什麼問題

運作原理

適用對象

重點功能

Sources