在 AMD 硬件上运行本地 AI
在 AMD 硬件上运行本地 AI
本地 AI 作为战略必需
本地 AI 正在变得至关重要,因为开源模型已经在性能上与前沿模型的差距缩小到三到六个月之内。虽然前沿实验室的 token 成本在纸面上看似更低,但 AI 代理和大量推理工作负载会以规模化的方式消耗 token,显著提升运营成本。本地执行为需要数据隐私、对 AI 堆栈拥有完全控制权以及避免代理 API 调用成本不断上升的用户提供了关键解决方案。
AI 工作负载的硬件配置
高性能本地 AI 需要大量显存和计算能力。本演示中评估的硬件堆栈包括:
- CPU: AMD Ryzen Threadripper 9980X
- GPU: AMD Radeon AI Pro R9700,配备 32GB 显存
该配置能够在几乎没有量化妥协的情况下运行高质量模型。对于较小的模型,可使用 8 位量化或全分辨率运行,而较大的模型通常在 4 位量化下也能有效运行。
LLM 执行与性能
在 AMD 硬件上运行大语言模型(LLM)可以通过 LM Studio 和 Ollama 等工具实现简化。
LM Studio 和 Ollama
LM Studio 现在随附 ROCm 运行时,能够原生识别 AMD GPU。使用 Qwen 3.6 mixture‑of‑experts 模型在 Radeon AI Pro R9700 上运行时,性能约为每秒 160 token。该速度足以满足人类阅读需求以及 AI 代理所需的快速迭代。
模型能力
本地部署支持广泛的功能,包括:
- 推理: 可随时开启或关闭推理能力。
- 视觉: 处理视觉输入。
- 文档分析: 加载本地文档并进行对话。
- 上下文窗口: 调整上下文窗口大小(例如 64K),同时保持高 token 吞吐量。
ROCm 软件栈
ROCm(Radeon Open Compute)是使深度学习框架能够在 AMD 硬件上运行的基础层。它是 NVIDIA CUDA 的主要替代方案。
兼容性与集成
ROCm 及其翻译层 HIP 已经成熟到软件兼容性不再是主要障碍。关键集成包括:
- PyTorch: 官方提供 ROCm wheel,用户可通过 pip 安装 PyTorch 并以最小改动运行现有代码。
- Transformers 库: 完全兼容 ROCm,用于模型推理和部署。
- Unsloth: 提供在 AMD GPU 上微调 LLM 的专门指南。
ROCm 不仅支持推理,还支持完整的模型训练和从头微调。
使用 ComfyUI 进行生成媒体
AMD GPU 能够通过 ComfyUI 运行复杂的生成媒体流水线。选择 ComfyUI 的 ROCm 版本,用户即可执行各种生成任务:
- 图像生成: 快速的文本到图像以及图像到图像生成。
- 视频生成: 支持 LTX 2、Wan 2.2 等模型。
- 其他模态: 支持音频模型和图像到 3D 模型。
使用 Linux 优化性能
虽然 Windows(通过 WSL)也受支持,但原生 Linux 安装提供了对 ROCm 栈最稳健的支持。
Linux 的优势
安装 Linux 可使用最新的 ROCm 版本(例如 ROCm 7.2),这些版本在 Windows 上可能不可用。该环境能够更深入地与 PyTorch 集成,使开发者能够:
- 直接 GPU 访问: 验证设备名称并将张量直接分配到 Radeon GPU。
- 自定义训练: 使用 Gradio 界面对模型(例如在 CIFAR‑10 数据集上训练的 ResNet)进行预测。
- 高级推理: 运行全分辨率模型,如 Gemma 4,使用 Transformers 库或通过 vLLM 为代理工作流提供服务。
通过利用原生 Linux 环境,开发者可以超越简单的聊天界面,实现本地 AMD 硬件上的全尺度 AI 开发与部署。
摘要
AMD 的 ROCm 平台和 Radeon AI Pro GPU 使得在本地高性能运行 LLM、图像和视频生成模型成为可能,为隐私和成本效益提供了可行的 CUDA 替代方案。
标题
在 AMD 硬件上运行本地 AI
Sources
- undefinedRunning Local AI on AMD