在 AMD 硬體上執行本地 AI
在 AMD 硬體上執行本地 AI
本地 AI 作為策略必需
本地 AI 正變得日益重要,因為開放權重模型已在三到六個月內縮小了與前沿模型的性能差距。雖然前沿實驗室的代幣成本在紙面上看似較低,但 AI 代理人與大量推理工作負載會以規模化的方式消耗代幣,顯著提升營運成本。本地執行為需要資料隱私、完整控制 AI 堆疊的使用者提供了關鍵解決方案,同時也能避免代理 API 呼叫成本不斷上升。
AI 工作負載的硬體配置
高效能本地 AI 需要大量 VRAM 與運算能力。本示範所評估的硬體堆疊包括:
- CPU: AMD Ryzen Threadripper 9980X
- GPU: AMD Radeon AI Pro R9700,配備 32 GB VRAM
此配置可在最小量化妥協下執行高品質模型。對於較小的模型,可使用 8 位元量化或完整解析度;而較大的模型通常在 4 位元量化下亦能有效運行。
LLM 執行與效能
在 AMD 硬體上執行大型語言模型(LLM)可透過 LM Studio 與 Ollama 等工具順暢完成。
LM Studio 與 Ollama
LM Studio 現已內建 ROCm 執行環境,能原生辨識 AMD GPU。使用 Qwen 3.6 mixture‑of‑experts 模型在 Radeon AI Pro R9700 上測得的效能約為每秒 160 個代幣。此速度足以支援人類閱讀,也能滿足 AI 代理人所需的快速迭代。
模型功能
本地環境支援多種功能,包括:
- 推理: 可開關推理能力。
- 視覺: 處理視覺輸入。
- 文件分析: 載入並與本地文件對話。
- 上下文窗口: 調整上下文窗口大小(例如 64K),同時保持高代幣吞吐量。
ROCm 軟體堆疊
ROCm(Radeon Open Compute)是讓深度學習框架在 AMD 硬體上運行的基礎層,亦是 NVIDIA CUDA 的主要替代方案。
相容性與整合
ROCm 及其翻譯層 HIP 已成熟到軟體相容性不再是主要障礙。關鍵整合包括:
- PyTorch: 官方提供 ROCm 版 wheel,使用者可透過 pip 安裝 PyTorch,並以最小的程式碼變更執行既有模型。
- Transformers Library: 完全相容 ROCm,用於模型推論與部署。
- Unsloth: 提供在 AMD GPU 上微調 LLM 的專屬指南。
ROCm 不僅支援推論,亦支援完整的模型訓練與從頭微調。
使用 ComfyUI 產生媒體
AMD GPU 能透過 ComfyUI 執行複雜的生成式媒體管線。選擇 ComfyUI 的 ROCm 版本,即可執行各種生成任務:
- 影像生成: 快速的文字轉影像與影像轉影像。
- 影片生成: 支援 LTX 2、Wan 2.2 等模型。
- 其他模態: 支援音訊模型與 image‑to‑3D 模型。
使用 Linux 優化效能
雖然 Windows(透過 WSL)亦受支援,但原生 Linux 安裝提供最完整的 ROCm 支援。
Linux 的優勢
安裝 Linux 可使用最新的 ROCm 版本(例如 ROCm 7.2),而這些版本在 Windows 上可能尚未提供。此環境允許與 PyTorch 更深層的整合,使開發者能夠:
- 直接 GPU 存取: 驗證裝置名稱,並將張量直接分配至 Radeon GPU。
- 自訂訓練: 使用 Gradio 介面訓練模型(例如在 CIFAR‑10 資料集上訓練 ResNet),並進行預測。
- 進階推論: 使用 Transformers 套件執行全解析度模型(如 Gemma 4),或透過 vLLM 服務模型以支援代理工作流程。
透過原生 Linux 環境,開發者可從簡易聊天介面跨越至在本地 AMD 硬體上進行全規模 AI 開發與部署。
摘要: AMD 的 ROCm 平台與 Radeon AI Pro GPU 使得在本地執行 LLM、影像與影片生成模型具備高效能,提供隱私與成本效益的可行替代方案,取代以 CUDA 為主的系統。
標題: 在 AMD 硬體上執行本地 AI
Sources
- undefinedRunning Local AI on AMD