在 AMD 硬體上執行本地 AI

本地 AI 作為策略必需

本地 AI 正變得日益重要，因為開放權重模型已在三到六個月內縮小了與前沿模型的性能差距。雖然前沿實驗室的代幣成本在紙面上看似較低，但 AI 代理人與大量推理工作負載會以規模化的方式消耗代幣，顯著提升營運成本。本地執行為需要資料隱私、完整控制 AI 堆疊的使用者提供了關鍵解決方案，同時也能避免代理 API 呼叫成本不斷上升。

AI 工作負載的硬體配置

高效能本地 AI 需要大量 VRAM 與運算能力。本示範所評估的硬體堆疊包括：

CPU： AMD Ryzen Threadripper 9980X
GPU： AMD Radeon AI Pro R9700，配備 32 GB VRAM

此配置可在最小量化妥協下執行高品質模型。對於較小的模型，可使用 8 位元量化或完整解析度；而較大的模型通常在 4 位元量化下亦能有效運行。

LLM 執行與效能

在 AMD 硬體上執行大型語言模型（LLM）可透過 LM Studio 與 Ollama 等工具順暢完成。

LM Studio 與 Ollama

LM Studio 現已內建 ROCm 執行環境，能原生辨識 AMD GPU。使用 Qwen 3.6 mixture‑of‑experts 模型在 Radeon AI Pro R9700 上測得的效能約為每秒 160 個代幣。此速度足以支援人類閱讀，也能滿足 AI 代理人所需的快速迭代。

模型功能

本地環境支援多種功能，包括：

推理： 可開關推理能力。
視覺： 處理視覺輸入。
文件分析： 載入並與本地文件對話。
上下文窗口： 調整上下文窗口大小（例如 64K），同時保持高代幣吞吐量。

ROCm 軟體堆疊

ROCm（Radeon Open Compute）是讓深度學習框架在 AMD 硬體上運行的基礎層，亦是 NVIDIA CUDA 的主要替代方案。

相容性與整合

ROCm 及其翻譯層 HIP 已成熟到軟體相容性不再是主要障礙。關鍵整合包括：

PyTorch： 官方提供 ROCm 版 wheel，使用者可透過 pip 安裝 PyTorch，並以最小的程式碼變更執行既有模型。
Transformers Library： 完全相容 ROCm，用於模型推論與部署。
Unsloth： 提供在 AMD GPU 上微調 LLM 的專屬指南。

ROCm 不僅支援推論，亦支援完整的模型訓練與從頭微調。

使用 ComfyUI 產生媒體

AMD GPU 能透過 ComfyUI 執行複雜的生成式媒體管線。選擇 ComfyUI 的 ROCm 版本，即可執行各種生成任務：

影像生成： 快速的文字轉影像與影像轉影像。
影片生成： 支援 LTX 2、Wan 2.2 等模型。
其他模態： 支援音訊模型與 image‑to‑3D 模型。

使用 Linux 優化效能

雖然 Windows（透過 WSL）亦受支援，但原生 Linux 安裝提供最完整的 ROCm 支援。

Linux 的優勢

安裝 Linux 可使用最新的 ROCm 版本（例如 ROCm 7.2），而這些版本在 Windows 上可能尚未提供。此環境允許與 PyTorch 更深層的整合，使開發者能夠：

直接 GPU 存取： 驗證裝置名稱，並將張量直接分配至 Radeon GPU。
自訂訓練： 使用 Gradio 介面訓練模型（例如在 CIFAR‑10 資料集上訓練 ResNet），並進行預測。
進階推論： 使用 Transformers 套件執行全解析度模型（如 Gemma 4），或透過 vLLM 服務模型以支援代理工作流程。

透過原生 Linux 環境，開發者可從簡易聊天介面跨越至在本地 AMD 硬體上進行全規模 AI 開發與部署。

摘要： AMD 的 ROCm 平台與 Radeon AI Pro GPU 使得在本地執行 LLM、影像與影片生成模型具備高效能，提供隱私與成本效益的可行替代方案，取代以 CUDA 為主的系統。

標題：在 AMD 硬體上執行本地 AI

在 AMD 硬體上執行本地 AI

在 AMD 硬體上執行本地 AI

本地 AI 作為策略必需

AI 工作負載的硬體配置

LLM 執行與效能

LM Studio 與 Ollama

模型功能

ROCm 軟體堆疊

相容性與整合

使用 ComfyUI 產生媒體

使用 Linux 優化效能

Linux 的優勢

Sources