本地 LLM 的真实成本：Apple Silicon 对比云端 API

本地 LLM 推理与云端 API 之间的争论通常集中在隐私和控制权上。然而，当话题转向纯粹的经济学时，计算变得更加复杂。最近对 M5 MacBook Pro 的一项分析提出了一个发人深省的结论：对于许多用户来说，在高端 Apple Silicon 上本地运行模型实际上可能比使用 OpenRouter 等托管服务更贵。

这项分析探讨了本地推理的“代币经济学”（tokenomics），硬件折旧的影响，以及关于隐私和实用性的反驳观点。

本地推理的数学计算

要确定本地机器上每百万 token 的成本，不能只看电费。虽然功耗是显性成本，但主要的驱动因素是硬件本身的摊销。

电费成本

在负载下运行 M5 Max MacBook Pro 通常消耗 50 到 100 瓦。按照美国住宅平均电价约每 kWh $0.20 计算，电费可以忽略不计——每小时大约 $0.02，或者在 100% 利用率下每天 $0.48。

硬件折旧

真正的成本在于资本支出。一台配备 64GB RAM 的 14 英寸 M5 Max MBP 大约需要 $4,299。根据设备的预期寿命，持有成本的小时费用差异很大：

3 年寿命： 约每小时 $0.16
5 年寿命： 约每小时 $0.10
10 年寿命： 约每小时 $0.05

Tokenomics：底线结论

当运行像 Gemma 4 31B 这样的模型时，M5 Max 的性能范围在每秒 10 到 40 个 token (tps) 之间。

在 10 tps 时（每小时 36k tokens）： 每百万 token 的成本在 $1.61 到 $4.79 之间。
在 40 tps 时（每小时 144k tokens）： 每百万 token 的成本降至 $0.40 到 $1.20 之间。

相比之下，OpenRouter 提供 Gemma 4 31B 的价格大约是每百万 token $0.38 到 $0.50。即使在乐观的假设下（10 年硬件寿命和高 tps），本地推理的成本也仅能与云端持平。在悲观的假设下，本地推理可能比云端贵 10 倍。

反驳观点：超越电子表格

虽然原始数据倾向于云端，但社区的反应强调了纯财务分析中的几个关键缺陷。

“笔记本电脑实用性”因素

一个主要的批评点是，该分析将 MacBook 作为专用服务器来对待。正如一位评论者所言，用户买的不是一台“吞噬 token 的服务器”，而是一台用于其他工作的笔记本电脑。如果硬件已经因为开发工作（例如运行 Xcode）而成为必需品，那么运行 LLM 的边际成本几乎为零。

输入 Token 与 Agentic 工作流

成本分析通常关注输出 token，但在 agentic 工作流中，输入 token 往往占据主导地位。在云端 API 中，你需要为每一个输入 token 付费。而在本地，输入 token 基本上是免费的，仅会带来首字延迟（time-to-first-token）和功耗的轻微增加。这可以极大地改变经济平衡，使本地模型在 RAG（检索增强生成）或长上下文任务中更具优势。

隐私与控制

对于许多人来说，隐私的“成本”是一种可以接受的溢价。无需让敏感数据离开机器即可进行处理的能力、免受审查的自由，以及确保模型不会被供应商“卷款跑路”（rug-pulled）或被更新的保证，这些价值主张并不符合每百万 token 的成本计算表。

"本地 LLM 不关乎成本，而关乎控制。"

云端经济学：补贴的智能

还有一种观点认为，目前的云端定价是人为压低的。一些人认为，前沿 AI 公司正在亏本销售 token 以获取市场份额，这意味着 OpenRouter 或 Anthropic 目前的“廉价”价格可能无法作为长期本地与云端对比的持续基准。

结论：选择合适的工具

对于普通开发者来说，选择取决于工作负载：

云端 API 适用于高速、高吞吐量输出以及访问绝对最前沿（SOTA）的模型。
本地推理 是隐私敏感型数据、具有海量输入上下文的 agentic 工作流，以及已经拥有必要硬件进行主要工作的用户的理想选择。

虽然 M5 Max 是性能怪兽，但它并不是 H100 集群。试图将消费级笔记本电脑当作生产级推理服务器来对待，与云端的工业规模和补贴定价相比，始终会产生亏损。

本地 LLM 的真实成本：Apple Silicon 对比 云端 API

本地 LLM 的真实成本：Apple Silicon 对比 云端 API

本地推理的数学计算

电费成本

硬件折旧

Tokenomics：底线结论

反驳观点：超越电子表格

“笔记本电脑实用性”因素

输入 Token 与 Agentic 工作流

隐私与控制

云端经济学：补贴的智能

结论：选择合适的工具

Sources

本地 LLM 的真实成本：Apple Silicon 对比云端 API

本地 LLM 的真实成本：Apple Silicon 对比云端 API