在本地運行 SOTA LLM:硬體與配置指南

在本地運行 SOTA LLM:硬體與配置指南

在本地運行尖端(SOTA)大型語言模型(LLM)需要策略性地平衡 VRAM 容量、互連頻寬與系統穩定性。根據預算,使用者可以實現不同程度的智能,從消費級硬體上的高效 27B 參數模型,到專業工作站設備上的龐大 594B 參數模型。

本地 LLM 的硬體層級

本地 LLM 的效能主要受限於 VRAM。以下層級概述了不同模型智能程度所需的硬體要求。

入門級:約 $2,000 (48GB VRAM)

對於約 $2,000 的預算,建議的配置是兩張 RTX 3090 GPU,提供總計 48GB 的 VRAM。此配置能夠運行如 Qwen3.6-27B 等模型以及 SOTA 語音轉文字(STT)模型,例如 whisper-large-v3

高階級:約 $40,000+ (384GB VRAM)

若要達到接近 Claude Opus 的智能水平,則需要一個擁有 384GB VRAM 的系統。這可以透過使用四張 NVIDIA RTX 6000 Pro (Blackwell) 工作站卡來實現,每張提供 96GB 的 VRAM。

進階系統架構:384GB VRAM 配置方案

建立高 VRAM 系統不僅僅需要 GPU;還需要一個能夠處理吞吐量與電力需求,且不會在不必要的 PCIe 5.0 或 DDR5 組件上耗盡預算的基礎系統。

基礎系統規格

為了保持成本合理,建議使用上一代的 EPYC 系統。典型的配置包括:

  • 主機板:ASRock Rack ROMED8-2T (SP3, 7× PCIe 4.0 x16)。
  • CPU:AMD EPYC Milan 7313P (16-core)。
  • RAM:128GB DDR4 ECC RDIMM。
  • 電源:雙 Super Flower 1700W PSUs。
  • 儲存:4TB boot NVMe 與雙 8TB NVMe 用於存放模型權重(ZFS 複製)。

用於 Peer-to-Peer (P2P) 效能的 PCIe 切換器

為了避免在張量並行(tensor parallelism)的 allreduce 步驟中產生 PCI root complex 的瓶頸,使用 PCIe 4.0 switches(例如來自 c-payne.com 的產品)至關重要。這允許 GPU 之間以線速進行直接通訊。

效能結果:使用 Gen4 switch,系統可實現 27.5 GB/s 單向與 50.4 GB/s 雙向 P2P 頻寬,並具備亞微秒級延遲(0.37–0.45 µs)。

關鍵配置與優化

單靠硬體是不夠的;需要特定的 BIOS 與核心(kernel)設定來啟用高速度 P2P 通訊並防止系統掛起。

BIOS 設定 (ROMED8-2T)

  • AMD PCIE Link Width:設定為 x16(禁用 bifurcation)以確保上行鏈路訓練為 Gen4 x8/x8。
  • PCIe Link Speed:強制設定為 Gen4(而非 Auto)以防止 Blackwell Gen5 設備因訓練失敗而退回至 Gen1。
  • ASPM:禁用以防止閒置鏈路掉到 2.5GT/s,這會導致重新訓練延遲。
  • Re-Size BAR:啟用以實現完整的 VRAM BAR 暴露與 GPU P2P。
  • SR-IOV:禁用以避免 IOMMU 開銷。

核心與 GRUB 參數

為了防止在多 GPU P2P 操作期間發生 NCCL 掛起,以下 GRUB 參數是必要的: GRUB_CMDLINE_LINUX="iommu=off amd_iommu=off nomodeset"

此外,nvidia_uvm 模組應配置為 uvm_disable_hmm=1 以修復 P2P 問題。

禁用 ACS 以實現 Switch P2P

必須禁用 Access Control Services (ACS) 以將 P2P 流量保持在 switch fabric 內。如果啟用 ACS,流量會被轉發至 CPU root port,從而抵消 PCIe switch 的優點。這通常透過在啟動時經由 systemd oneshot service 執行的 setpci 腳本來處理。

電力與散熱管理

在標準的 110V 電路中使用四張高階 GPU,需要嚴格的電力限制來避免跳脫斷路器。使用 nvidia-smi,可將每張 GPU 的功耗限制在 350W(低於預設的 600W),從而使總 GPU 負載為 1,400W,這符合 PSU 預算與 110V 電路電力的容量。

模型部署與工具鏈

服務基礎設施

模型透過 Docker 容器進行管理,每個模型都有其專屬的 docker-compose.yml 配置。權重(weights)存儲於唯讀的 ZFS mount 點,以防止重複。對於推理(inference)任務,通常使用 vLLM 作為服務引擎。

AI Harness (AI 工具鏈)

為了極大化化本地模型的實用性,應將其與外部工具整合。建議的技術棧包括:

  • 網頁瀏覽:Camofox, Kagi API, 與 SearXNG。
  • 溝通:用於警報的 Telegram bots。
  • 程式碼協作:本地私有的 Gitea instance。
  • 隔離:為了安全,將 agent 運行在帶有共享檔案系統掛載點的沙盒化 VM 中。

社群社群觀點與權衡

雖然高階本地配置方案強大,但社群討論強調了幾個關鍵的權衡:

"對於文章中提到的龐大配置方案,預算從 $40K 起步,且包含 4 張每張 $12K 的 GPU。對於那些在做 math 的人來說,這套配置的成本可能會落在 50-55K 左右。"

量化與品質損失

使用者警告,在有限的硬體上運行龐大模型需要使用量化(例如 4-bit)或剪枝(例如 REAP)。這可能導致在長程任務或複雜程式碼編寫時品質下降,因為微小的錯誤會隨著時間累積。

經濟可行性

有些人認為,與雲端供應商相比,進入門檻非常高。對於 $2,000 的投資,部分使用者建議使用具有統一記憶體的 MacBook Pro 或使用雲端 API 訂閱(每月 $20/月)提供了更高的靈活性與更高的智能水平,且成本僅為一小部分。

Sources