本地 LLM 的真實成本：Apple Silicon vs. Cloud APIs

本地 LLM 推論與雲端 API 之間的爭論通常集中在隱私與控制權。然而，當對話轉向純粹的經濟學時，計算變得更加複雜。最近對 M5 MacBook Pro 的分析提出了一個挑釁性的結論：對於許多使用者而言，在高端 Apple Silicon 上本地運行模型可能實際上比使用 OpenRouter 等託管服務更昂貴。

這項分析探討了本地推論的「代幣經濟學」（tokenomics），硬體折舊的影響，以及關於隱私與實用性的反對論點。

本地推論的數學計算

要確定本地機器上每百萬個 token 的成本，不能僅看電費單。雖然功耗是可見的成本，但主要的驅動因素是硬體本身的攤提。

電費成本

在負載下運行 M5 Max MacBook Pro 通常消耗 50 到 100 瓦。以美國住宅平均電價約每 kWh $0.20 計算，電費成本微不足道——每小時約 $0.02，或在 100% 利用率下每天 $0.48。

硬體折舊

真正的成本在於資本支出。一台配備 64GB RAM 的 14 吋 M5 Max MBP 約需 $4,299。根據設備的預期使用壽命，持有成本的每小時成本差異很大：

3 年使用壽命： ~$0.16 每小時
5 年使用壽命： ~$0.10 每小時
10 年使用壽命： ~$0.05 每小時

Tokenomics：底線

當運行像 Gemma 4 31B 這樣的模型時，M5 Max 的性能範圍在每秒 10 到 40 個 token (tps) 之間。

在 10 tps 時（每小時 36k tokens）： 成本範圍在每百萬個 token $1.61 到 $4.79 之間。
在 40 tps 時（每小時 144k tokens）： 成本降至每百萬個 token $0.40 到 $1.20 之間。

相比之下，OpenRouter 提供 Gemma 4 31B 的價格約為每百萬個 token $0.38 到 $0.50。即使在樂觀的假設下（10 年硬體壽命與高 tps），本地推論也僅僅與雲端持平。在悲觀的假設下，本地推論可能比雲端貴 10 倍。

反對論點：超越試算表

雖然純粹的數字有利於雲端，但社群的回應突顯了純粹財務分析中的幾個關鍵缺陷。

「筆記型電腦實用性」因素

一個主要的批評是，這項分析將 MacBook 視為專用伺服器。正如一位評論者所言，使用者並非在購買「吞噬 token 的伺服器」，而是在購買一台用於其他工作的筆記型電腦。如果硬體已經是開發工作所需的（例如，運行 Xcode），那麼運行 LLM 的邊際成本幾乎為零。

輸入 Token 與 Agentic Workflows

成本分析集中在輸出 token，但在 agentic workflows 中，輸入 token 通常佔據主導地位。在雲端 API 中，您必須為每個輸入 token 付費。在本地，輸入 token 基本上是免費的，僅會導致 time-to-first-token 和功耗的輕微增加。這對於 RAG (Retrieval-Augmented Generation) 或長上下文任務來說，可以極大地改變經濟平衡，使其向本地模型傾斜。

隱私與控制權

對於許多人來說，隱私的「成本」是一種可以接受的溢價。能夠在不離開機器的情況下處理敏感數據，免於審查，以及確保模型不會被提供商「rug-pulled」或更新，這種價值主張並不符合每 token 的成本試算表。

"本地 LLM 不在於成本，而在於控制權。"

雲端經濟學：補貼的智能

也有論點認為目前的雲端定價是人為低廉的。有人認為前沿 AI 公司正在虧損銷售 token 以獲取市場份額，這意味著 OpenRouter 或 Anthropic 目前的「便宜」價格可能無法作為長期本地與雲端對比的永續基準。

結論：選擇正確的工具

對於一般開發者而言，選擇取決於工作負載：

Cloud APIs 是高速、高容量輸出以及獲取絕對最先進 (SOTA) 前沿模型的最佳選擇。
Local Inference 是隱私敏感型數據、具有大量輸入上下文的 agentic workflows，以及已經擁有必要硬體進行主要工作的使用者的理想選擇。

雖然 M5 Max 是強大的性能怪獸，但它並不是 H100 集群。嘗試將消費級筆記型電腦視為生產級推論伺服器，與雲端的大規模工業化規模與補貼定價相比，結果將始終是虧損的。

本地 LLM 的真實成本：Apple Silicon vs. Cloud APIs

本地 LLM 的真實成本：Apple Silicon vs. Cloud APIs

本地推論的數學計算

電費成本

硬體折舊

Tokenomics：底線

反對論點：超越試算表

「筆記型電腦實用性」因素

輸入 Token 與 Agentic Workflows

隱私與控制權

雲端經濟學：補貼的智能

結論：選擇正確的工具

Sources