ローカルLLMの真のコスト:Apple Silicon vs. クラウドAPI

ローカルLLMの真のコスト:Apple Silicon vs. クラウドAPI

ローカルLLM推論とクラウドベースのAPIの間の議論は、多くの場合プライバシーとコントロールに焦点が当てられます。しかし、会話が純粋な経済学に移行すると、計算はより複雑になります。M5 MacBook Proに関する最近の分析は、挑発的な結論を示唆しています。多くのユーザーにとって、ハイエンドなApple Silicon上でモデルをローカルで実行することは、OpenRouterのようなマネージドサービスを利用するよりも、実際には高価になる可能性があります。

この分析では、ローカル推論の「トークノミクス」、ハードウェアの減価償却、そしてプライバシーと実用性に関する反論を調査します。

ローカル推論の計算

ローカルマシン上での100万トークンあたりのコストを決定するには、電気代以上のものを見る必要があります。消費電力は目に見えるコストですが、主な要因はハードウェア自体の減価償却です。

電気代

負荷がかかった状態のM5 Max MacBook Proの稼働は、通常50から100ワットの間で消費されます。米国の平均的な住宅用料金が1kWhあたり約$0.20である場合、電気代は無視できる程度です。1時間あたり約$0.02、または100%の稼働率で1日あたり約$0.48となります。

ハードウェアの減価償却

真のコストは資本支出にあります。64GBのRAMを搭載した14インチのM5 Max MBPは、約$4,299かかります。デバイスの予想寿命に応じて、所有にかかる時間あたりのコストは大きく異なります。

  • 3年間の寿命: ~$0.16/時
  • 5年間の寿命: ~$0.10/時
  • 10年間の寿命: ~$0.05/時

トークノミクス:結論

Gemma 4 31Bのようなモデルを実行する場合、M5 Maxでのパフォーマンスは毎秒10から40トークン(tps)の範囲です。

  • 10 tps (36k tokens/hr) の場合: コストは100万トークンあたり$1.61から$4.79の範囲です。
  • 40 tps (144k tokens/hr) の場合: コストは100万トークンあたり$0.40から$1.20に下がります。

対照的に、OpenRouterはGemma 4 31Bを100万トークンあたり約$0.38から$0.50で提供しています。楽観的な仮定(10年間のハードウェア寿命と高いtps)の下でも、ローカル推論はクラウドと辛うじて同等になります。悲観的な仮定の下では、ローカル推論は10倍高価になる可能性があります。

反論:スプレッドシートを超えて

数値はクラウドに有利ですが、コミュニティの反応は、純粋な財務分析におけるいくつかの重要な欠陥を浮き彫りにしています。

「ラップトップの有用性」要因

主な批判は、この分析がMacBookを専用サーバーとして扱っている点です。あるコメント投稿者は、ユーザーは「トークンを消費するサーバー」を買っているのではなく、他の仕事のために使うラップトップを買っているのだと指摘しています。もしハードウェアが開発(例:Xcodeを実行すること)のために既に必要であれば、LLMを実行する限界費用はほぼゼロです。

入力トークンとエージェンティック・ワークフロー

コスト分析は出力トークンに焦点を当てていますが、エージェンティック・ワークフローでは、入力トークンが支配的になることがよくあります。クラウドAPIでは、すべての入力トークンに対して料金が発生します。ローカルでは、入力トークンは実質的に無料であり、最初のトークンが出るまでの時間(time-to-first-token)と消費電力のわずかな増加のみを要します。これは、RAG(Retrieval-Augmented Generation)や長いコンテキストのタスクにおいて、経済的バランスをローカルモデルに劇的に有利に傾ける可能性があります。

プライバシーとコントロール

多くの人にとって、プライバシーの「コスト」は許容できるプレミアムです。機密データをマシンから離さずに処理できる能力、検閲からの自由、そしてモデルがプロバイダーによって「ラグプル(rug-pulled)」されたり更新されたりしないという保証は、コスト・パー・トークンのスプレッドシートには収まらない価値提案です。

Sources