本地 LLM 的真實成本:Apple Silicon vs. Cloud APIs

本地 LLM 的真實成本:Apple Silicon vs. Cloud APIs

本地 LLM 推論與雲端 API 之間的爭論通常集中在隱私與控制權。然而,當對話轉向純粹的經濟學時,計算變得更加複雜。最近對 M5 MacBook Pro 的分析提出了一個挑釁性的結論:對於許多使用者而言,在高端 Apple Silicon 上本地運行模型可能實際上比使用 OpenRouter 等託管服務更昂貴。

這項分析探討了本地推論的「代幣經濟學」(tokenomics),硬體折舊的影響,以及關於隱私與實用性的反對論點。

本地推論的數學計算

要確定本地機器上每百萬個 token 的成本,不能僅看電費單。雖然功耗是可見的成本,但主要的驅動因素是硬體本身的攤提。

電費成本

在負載下運行 M5 Max MacBook Pro 通常消耗 50 到 100 瓦。以美國住宅平均電價約每 kWh $0.20 計算,電費成本微不足道——每小時約 $0.02,或在 100% 利用率下每天 $0.48。

硬體折舊

真正的成本在於資本支出。一台配備 64GB RAM 的 14 吋 M5 Max MBP 約需 $4,299。根據設備的預期使用壽命,持有成本的每小時成本差異很大:

  • 3 年使用壽命: ~$0.16 每小時
  • 5 年使用壽命: ~$0.10 每小時
  • 10 年使用壽命: ~$0.05 每小時

Tokenomics:底線

當運行像 Gemma 4 31B 這樣的模型時,M5 Max 的性能範圍在每秒 10 到 40 個 token (tps) 之間。

  • 在 10 tps 時(每小時 36k tokens): 成本範圍在每百萬個 token $1.61 到 $4.79 之間。
  • 在 40 tps 時(每小時 144k tokens): 成本降至每百萬個 token $0.40 到 $1.20 之間。

相比之下,OpenRouter 提供 Gemma 4 31B 的價格約為每百萬個 token $0.38 到 $0.50。即使在樂觀的假設下(10 年硬體壽命與高 tps),本地推論也僅僅與雲端持平。在悲觀的假設下,本地推論可能比雲端貴 10 倍。

反對論點:超越試算表

雖然純粹的數字有利於雲端,但社群的回應突顯了純粹財務分析中的幾個關鍵缺陷。

「筆記型電腦實用性」因素

一個主要的批評是,這項分析將 MacBook 視為專用伺服器。正如一位評論者所言,使用者並非在購買「吞噬 token 的伺服器」,而是在購買一台用於其他工作的筆記型電腦。如果硬體已經是開發工作所需的(例如,運行 Xcode),那麼運行 LLM 的邊際成本幾乎為零。

輸入 Token 與 Agentic Workflows

成本分析集中在輸出 token,但在 agentic workflows 中,輸入 token 通常佔據主導地位。在雲端 API 中,您必須為每個輸入 token 付費。在本地,輸入 token 基本上是免費的,僅會導致 time-to-first-token 和功耗的輕微增加。這對於 RAG (Retrieval-Augmented Generation) 或長上下文任務來說,可以極大地改變經濟平衡,使其向本地模型傾斜。

隱私與控制權

對於許多人來說,隱私的「成本」是一種可以接受的溢價。能夠在不離開機器的情況下處理敏感數據,免於審查,以及確保模型不會被提供商「rug-pulled」或更新,這種價值主張並不符合每 token 的成本試算表。

"本地 LLM 不在於成本,而在於控制權。"

雲端經濟學:補貼的智能

也有論點認為目前的雲端定價是人為低廉的。有人認為前沿 AI 公司正在虧損銷售 token 以獲取市場份額,這意味著 OpenRouter 或 Anthropic 目前的「便宜」價格可能無法作為長期本地與雲端對比的永續基準。

結論:選擇正確的工具

對於一般開發者而言,選擇取決於工作負載:

  • Cloud APIs 是高速、高容量輸出以及獲取絕對最先進 (SOTA) 前沿模型的最佳選擇。
  • Local Inference 是隱私敏感型數據、具有大量輸入上下文的 agentic workflows,以及已經擁有必要硬體進行主要工作的使用者的理想選擇。

雖然 M5 Max 是強大的性能怪獸,但它並不是 H100 集群。嘗試將消費級筆記型電腦視為生產級推論伺服器,與雲端的大規模工業化規模與補貼定價相比,結果將始終是虧損的。

Sources