本地 LLM 的真实成本:Apple Silicon 对比 云端 API

本地 LLM 的真实成本:Apple Silicon 对比 云端 API

本地 LLM 推理与云端 API 之间的争论通常集中在隐私和控制权上。然而,当话题转向纯粹的经济学时,计算变得更加复杂。最近对 M5 MacBook Pro 的一项分析提出了一个发人深省的结论:对于许多用户来说,在高端 Apple Silicon 上本地运行模型实际上可能比使用 OpenRouter 等托管服务更贵。

这项分析探讨了本地推理的“代币经济学”(tokenomics),硬件折旧的影响,以及关于隐私和实用性的反驳观点。

本地推理的数学计算

要确定本地机器上每百万 token 的成本,不能只看电费。虽然功耗是显性成本,但主要的驱动因素是硬件本身的摊销。

电费成本

在负载下运行 M5 Max MacBook Pro 通常消耗 50 到 100 瓦。按照美国住宅平均电价约每 kWh $0.20 计算,电费可以忽略不计——每小时大约 $0.02,或者在 100% 利用率下每天 $0.48。

硬件折旧

真正的成本在于资本支出。一台配备 64GB RAM 的 14 英寸 M5 Max MBP 大约需要 $4,299。根据设备的预期寿命,持有成本的小时费用差异很大:

  • 3 年寿命: 约每小时 $0.16
  • 5 年寿命: 约每小时 $0.10
  • 10 年寿命: 约每小时 $0.05

Tokenomics:底线结论

当运行像 Gemma 4 31B 这样的模型时,M5 Max 的性能范围在每秒 10 到 40 个 token (tps) 之间。

  • 在 10 tps 时(每小时 36k tokens): 每百万 token 的成本在 $1.61 到 $4.79 之间。
  • 在 40 tps 时(每小时 144k tokens): 每百万 token 的成本降至 $0.40 到 $1.20 之间。

相比之下,OpenRouter 提供 Gemma 4 31B 的价格大约是每百万 token $0.38 到 $0.50。 即使在乐观的假设下(10 年硬件寿命和高 tps),本地推理的成本也仅能与云端持平。在悲观的假设下,本地推理可能比云端贵 10 倍。

反驳观点:超越电子表格

虽然原始数据倾向于云端,但社区的反应强调了纯财务分析中的几个关键缺陷。

“笔记本电脑实用性”因素

一个主要的批评点是,该分析将 MacBook 作为专用服务器来对待。正如一位评论者所言,用户买的不是一台“吞噬 token 的服务器”,而是一台用于其他工作的笔记本电脑。如果硬件已经因为开发工作(例如运行 Xcode)而成为必需品,那么运行 LLM 的边际成本几乎为零。

输入 Token 与 Agentic 工作流

成本分析通常关注输出 token,但在 agentic 工作流中,输入 token 往往占据主导地位。在云端 API 中,你需要为每一个输入 token 付费。而在本地,输入 token 基本上是免费的,仅会带来首字延迟(time-to-first-token)和功耗的轻微增加。这可以极大地改变经济平衡,使本地模型在 RAG(检索增强生成)或长上下文任务中更具优势。

隐私与控制

对于许多人来说,隐私的“成本”是一种可以接受的溢价。无需让敏感数据离开机器即可进行处理的能力、免受审查的自由,以及确保模型不会被供应商“卷款跑路”(rug-pulled)或被更新的保证,这些价值主张并不符合每百万 token 的成本计算表。

"本地 LLM 不关乎成本,而关乎控制。"

云端经济学:补贴的智能

还有一种观点认为,目前的云端定价是人为压低的。一些人认为,前沿 AI 公司正在亏本销售 token 以获取市场份额,这意味着 OpenRouter 或 Anthropic 目前的“廉价”价格可能无法作为长期本地与云端对比的持续基准。

结论:选择合适的工具

对于普通开发者来说,选择取决于工作负载:

  • 云端 API 适用于高速、高吞吐量输出以及访问绝对最前沿(SOTA)的模型。
  • 本地推理 是隐私敏感型数据、具有海量输入上下文的 agentic 工作流,以及已经拥有必要硬件进行主要工作的用户的理想选择。

虽然 M5 Max 是性能怪兽,但它并不是 H100 集群。试图将消费级笔记本电脑当作生产级推理服务器来对待,与云端的工业规模和补贴定价相比,始终会产生亏损。

Sources