在 AMD 硬體上執行本地 AI

在 AMD 硬體上執行本地 AI

本地 AI 作為策略必需

本地 AI 正變得日益重要,因為開放權重模型已在三到六個月內縮小了與前沿模型的性能差距。雖然前沿實驗室的代幣成本在紙面上看似較低,但 AI 代理人與大量推理工作負載會以規模化的方式消耗代幣,顯著提升營運成本。本地執行為需要資料隱私、完整控制 AI 堆疊的使用者提供了關鍵解決方案,同時也能避免代理 API 呼叫成本不斷上升。

AI 工作負載的硬體配置

高效能本地 AI 需要大量 VRAM 與運算能力。本示範所評估的硬體堆疊包括:

  • CPU: AMD Ryzen Threadripper 9980X
  • GPU: AMD Radeon AI Pro R9700,配備 32 GB VRAM

此配置可在最小量化妥協下執行高品質模型。對於較小的模型,可使用 8 位元量化或完整解析度;而較大的模型通常在 4 位元量化下亦能有效運行。

LLM 執行與效能

在 AMD 硬體上執行大型語言模型(LLM)可透過 LM Studio 與 Ollama 等工具順暢完成。

LM Studio 與 Ollama

LM Studio 現已內建 ROCm 執行環境,能原生辨識 AMD GPU。使用 Qwen 3.6 mixture‑of‑experts 模型在 Radeon AI Pro R9700 上測得的效能約為每秒 160 個代幣。此速度足以支援人類閱讀,也能滿足 AI 代理人所需的快速迭代。

模型功能

本地環境支援多種功能,包括:

  • 推理: 可開關推理能力。
  • 視覺: 處理視覺輸入。
  • 文件分析: 載入並與本地文件對話。
  • 上下文窗口: 調整上下文窗口大小(例如 64K),同時保持高代幣吞吐量。

ROCm 軟體堆疊

ROCm(Radeon Open Compute)是讓深度學習框架在 AMD 硬體上運行的基礎層,亦是 NVIDIA CUDA 的主要替代方案。

相容性與整合

ROCm 及其翻譯層 HIP 已成熟到軟體相容性不再是主要障礙。關鍵整合包括:

  • PyTorch: 官方提供 ROCm 版 wheel,使用者可透過 pip 安裝 PyTorch,並以最小的程式碼變更執行既有模型。
  • Transformers Library: 完全相容 ROCm,用於模型推論與部署。
  • Unsloth: 提供在 AMD GPU 上微調 LLM 的專屬指南。

ROCm 不僅支援推論,亦支援完整的模型訓練與從頭微調。

使用 ComfyUI 產生媒體

AMD GPU 能透過 ComfyUI 執行複雜的生成式媒體管線。選擇 ComfyUI 的 ROCm 版本,即可執行各種生成任務:

  • 影像生成: 快速的文字轉影像與影像轉影像。
  • 影片生成: 支援 LTX 2、Wan 2.2 等模型。
  • 其他模態: 支援音訊模型與 image‑to‑3D 模型。

使用 Linux 優化效能

雖然 Windows(透過 WSL)亦受支援,但原生 Linux 安裝提供最完整的 ROCm 支援。

Linux 的優勢

安裝 Linux 可使用最新的 ROCm 版本(例如 ROCm 7.2),而這些版本在 Windows 上可能尚未提供。此環境允許與 PyTorch 更深層的整合,使開發者能夠:

  • 直接 GPU 存取: 驗證裝置名稱,並將張量直接分配至 Radeon GPU。
  • 自訂訓練: 使用 Gradio 介面訓練模型(例如在 CIFAR‑10 資料集上訓練 ResNet),並進行預測。
  • 進階推論: 使用 Transformers 套件執行全解析度模型(如 Gemma 4),或透過 vLLM 服務模型以支援代理工作流程。

透過原生 Linux 環境,開發者可從簡易聊天介面跨越至在本地 AMD 硬體上進行全規模 AI 開發與部署。


摘要: AMD 的 ROCm 平台與 Radeon AI Pro GPU 使得在本地執行 LLM、影像與影片生成模型具備高效能,提供隱私與成本效益的可行替代方案,取代以 CUDA 為主的系統。

標題: 在 AMD 硬體上執行本地 AI

Sources