whichllm: 一个基于硬件感知的推荐引擎，根据系统规格和真实基准测试对最佳本地 LLM 进行排名

它解决了什么问题

寻找适合特定硬件的最佳本地大语言模型 (LLM) 通常很困难，因为仅仅将模型放入 VRAM 中并不保证它是质量最高或速度最快的选择。whichllm 通过自动检测系统硬件并根据实际基准测试性能、预估速度和硬件兼容性（而非仅仅是大小）对 HuggingFace 上的模型进行排名来解决这个问题。

工作原理

该工具分析用户的 GPU、CPU 和 RAM 来预估 VRAM 需求（包括权重、KV cache 和开销）以及基于内存带宽的生成速度。它从 HuggingFace API 获取实时模型数据，并将其与多个基准测试来源（如 LiveBench、Chatbot Arena 和 Open LLM Leaderboard）合并。随后，评分引擎通过结合基准测试质量、模型大小、量化惩罚和运行时拟合度（例如，全 GPU 运行 vs. 部分卸载）对模型进行排名。

适用人群

它专为运行本地 LLM 并希望优化硬件利用率的用户，以及计划购买硬件并希望模拟特定 GPU 以查看可以运行哪些模型的人群而设计。

亮点

硬件自动检测：支持 NVIDIA、AMD、Intel 和 Apple Silicon。
基于证据的排名：使用真实的基准测试分数并结合基于置信度的衰减机制，而非简单的尺寸启发式算法。
命令行执行：包含 whichllm run 用于即时下载并与推荐模型进行对话，以及 whichllm snippet 用于生成即插即用的 Python 代码。
硬件规划：具有 plan 和 upgrade 命令，用于确定运行特定模型所需的 GPU，或将当前硬件与潜在升级方案进行比较。
实时数据：直接与 HuggingFace API 集成，以获取最新的模型推荐。

whichllm: 一个基于硬件感知的推荐引擎，根据系统规格和真实基准测试对最佳本地 LLMs 进行排名

whichllm: 一个基于硬件感知的推荐引擎，根据系统规格和真实基准测试对最佳本地 LLM 进行排名

它解决了什么问题

工作原理

适用人群

亮点

Sources