whichllm: 一个基于硬件感知的推荐引擎,根据系统规格和真实基准测试对最佳本地 LLMs 进行排名
whichllm: 一个基于硬件感知的推荐引擎,根据系统规格和真实基准测试对最佳本地 LLM 进行排名
它解决了什么问题
寻找适合特定硬件的最佳本地大语言模型 (LLM) 通常很困难,因为仅仅将模型放入 VRAM 中并不保证它是质量最高或速度最快的选择。whichllm 通过自动检测系统硬件并根据实际基准测试性能、预估速度和硬件兼容性(而非仅仅是大小)对 HuggingFace 上的模型进行排名来解决这个问题。
工作原理
该工具分析用户的 GPU、CPU 和 RAM 来预估 VRAM 需求(包括权重、KV cache 和开销)以及基于内存带宽的生成速度。它从 HuggingFace API 获取实时模型数据,并将其与多个基准测试来源(如 LiveBench、Chatbot Arena 和 Open LLM Leaderboard)合并。随后,评分引擎通过结合基准测试质量、模型大小、量化惩罚和运行时拟合度(例如,全 GPU 运行 vs. 部分卸载)对模型进行排名。
适用人群
它专为运行本地 LLM 并希望优化硬件利用率的用户,以及计划购买硬件并希望模拟特定 GPU 以查看可以运行哪些模型的人群而设计。
亮点
- 硬件自动检测:支持 NVIDIA、AMD、Intel 和 Apple Silicon。
- 基于证据的排名:使用真实的基准测试分数并结合基于置信度的衰减机制,而非简单的尺寸启发式算法。
- 命令行执行:包含
whichllm run用于即时下载并与推荐模型进行对话,以及whichllm snippet用于生成即插即用的 Python 代码。 - 硬件规划:具有
plan和upgrade命令,用于确定运行特定模型所需的 GPU,或将当前硬件与潜在升级方案进行比较。 - 实时数据:直接与 HuggingFace API 集成,以获取最新的模型推荐。
Sources
- undefinedAndyyyy64/whichllm