MacBook vs. Dedicated GPU for Local LLM Inference
MacBook vs. Dedicated GPU for Local LLM Inference
The Core Trade-off: Memory Capacity vs. Compute Speed
Apple Silicon MacBooks と ローカル LLM 実行のための NVIDIA GPU のどちらを選択するかは、主に モデルサイズ (VRAM) と 推論速度 (tokens per second) のトレードオフです。
MacBook: High Capacity, Lower Speed
Apple Silicon MacBooks はユニファイドメモリ・アーキテクチャを採用しており、GPU がシステム RAM の膨大な量にアクセスすることを可能にします。これにより、実質的に「膨大なビデオ RAM を持つ低速な GPU」として機能します。
- Primary Advantage: 非常に大きなモデルを実行できる能力。本来であれば複数の高価なエンタープライズ向け GPU が必要となるようなモデルでも実行可能です。例えば、128GB の RAM を搭載した MacBook は、llama swap のようなツールを使用して、巨大なモデルや複数のモデルを同時にロードできます。
- Primary Disadvantage: NVIDIA ハードウェアと比較して、計算スループット (FLOPs) が大幅に低くなります。ユーザーの報告によると、大きなモデルは実行できるものの、生成速度が遅く、非効率な prefill パフォーマンスのために「最初のトークンまでの時間」(latency) が高くなる傾向があります。
- Best For: 実験、開発、およびプライバシーや機密データを扱うために、継続的なクラウドコストをかけずにローカルで大きなモデルを実行する必要があるユーザー。
Dedicated GPU (NVIDIA/CUDA): High Speed, Lower Capacity
Dedicated GPU は CUDA コアと高帯域幅 VRAM に依存しており、圧倒的に優れた計算性能を提供しますが、モデルのサイズはカード上の利用可能な VRAM に制限されます。
Comparative Performance
あるユーザーは、異なるハードウェアで Qwen 3.6 35B (Q4 quantization) を実行した際の速度の顕著な差を報告しています:
- M5 (16-core, 48GB): ~80 tokens per second (TG/s) および 1900 prompt processing (PP/s)。
- NVIDIA 5090: ~280 tokens per second (TG/s) および 7800 prompt processing (PP/s)。
Recommended "Sweet Spots"
- Budget Entry: 32GB RAM を搭載した整備済みの Mac mini は、長時間実行するタスク向けの低電力・静音オプションとして挙げられています。
- The "AI Experimenter" Value Pick: M1 Max チップと 64GB の共有 RAM を搭載した中古の 16'' MacBook Pro。これにより、比較的低コストで最大約 48GB のサイズのモデルを実行できます。
- High-End Local Setup: 複数の NVIDIA 3090s (24GB 各) を搭載したワークステーションは、複数の GPU と個別の電源ユニットを扱うハードウェアの複雑さを許容できるユーザーにとって、最高のコストパフォーマンスを提供します。
Local vs. Cloud Alternatives
多くの人にとって、選択肢は Mac か PC かではなく、ローカルハードウェアかクラウドインフラストラクチャかのどちらかです。
When to Go Local
ローカル実行は、クラウドプロバイダーのプライバシー保証が不十分な、機密性の高い医療データや個人データを扱う場合に必要です。また、重い反復的な開発における API 使用に伴う「トークン消費」コストも排除できます。
When to Go Cloud
クラウド GPU (vast.ai などのサービス経由) は、24/7 のワークロードがないユーザーに推奨されます。速度と SOTA (State of the Art) パフォーマンスを優先するユーザーにとって、Gemini, Claude, または OpenAI のようなクラウドプロバイダーは、データプライバシー規約が許容できる限り、最も効率的な選択肢となることが多いです。
"My $5k macbook can do more than a $50k nvidia/intel/amd setup, just not as fast. So you need to decide whats important to you if you want to work locally, large/many models or speed."
Summary Comparison Table
| Feature | MacBook (Apple Silicon) | Dedicated GPU (NVIDIA/CUDA) |
|---|---|---|
| Memory Access | Unified Memory (System RAM) | Dedicated VRAM |
| Model Size | Can run very large models (up to RAM limit) | Limited by VRAM (unless multi-GPU) |
| Inference Speed | Slower (Lower FLOPs) | Much Faster (High Bandwidth) |
| Latency | Higher (Slower Prefill) | Lower (Near-instant) |
| Ecosystem | Integrated, Silent, Silent, Power Efficient | CUDA (Industry Standard for ML) |
| Ideal Use Case | Large model tinkering & Privacy | Speed, Fine-tuning, & Production |