NVIDIA Rubin 液冷技术:将数据中心用水量降至接近于零

NVIDIA Rubin 液冷技术:将数据中心用水量降至接近于零

NVIDIA Rubin 实现 100% 液冷以消除耗水

NVIDIA 的 Rubin 代 AI 基础设施是首个实现 100% 液冷的技术,它移除了系统中的所有风扇,并采用了闭环液冷方法。通过允许冷却液在高达 45°C (113°F) 的温度下运行,NVIDIA 使数据中心能够从蒸发式冷却塔转向基于干式冷却器 (dry-cooler) 的设计,这可以将设施的用水量从每兆瓦每年 260 万加仑降至接近于零。

45°C 液冷的效率

提高冷却液的工作温度可以使热量更有效地排放到室外空气中,而无需使用高能耗的机械制冷机 (chillers)。这种方法提供了几个关键的操作优势:

  • 能量成本降低: 行业估计表明,制冷机房温度仅提高一度,即可降低约 4% 的冷却能耗成本。一个 50 兆瓦的超大规模设施通过转向液冷基础设施,每年可节省超过 400 万美元。
  • 无需制冷机运行: 在气候适宜的地区,45°C 架构允许使用室外干式冷却器 (large radiator coils) 进行“无制冷机”运行。在这些环境中,机械制冷仅在一年中极小的一部分时间内需要(在某些气候下约为 1%)。
  • 性能稳定性: 尽管冷却液温度较高,但处理器仍能以全性能运行。以 45°C 进入芯片的冷却液在吸收热负荷后,通常以 55°C 离开,而冷板 (cold plates) 会将硅片保持在经过验证的操作限制范围内。

架构转变:从混合式到全液冷

传统的液冷服务器是混合系统,其中只有 GPU 和 CPU 拥有冷板,而其他组件则依赖风冷散热片。Rubin 架构重新设计了整个服务器,使其实现全液冷,这导致了几个物理和操作上的变化:

  • 增加机架密度: 由于不需要为气流预留空间,全液冷服务器可以显著提高计算密度。以前占用六个机架单元 (rack units) 的系统现在可以容纳在两个单元内。
  • 消除噪音: 通过移除所有冷却风扇,系统消除了传统数据中心通常达到或超过 85 分贝的噪音水平。
  • 简化基础设施: 服务器采用密封的前面板,而不是空气吸入所需的穿孔面板,且冷却回路被重新设计,以便通过单个进出口将液体流向多个高功率芯片。

技术规格与实现

冷却系统使用 75% 水和 25% 丙二醇 (propylene glycol) 的混合物。液体在闭环循环中从冷却液分配单元 (CDU) 流向服务器。这种闭环设计确保了系统一旦充满,在冷却过程中就不会消耗新的水。

社区见解与考量

围绕此公告的技术讨论突出了该架构的潜在应用和剩余的挑战:

废热回收与区域供热

一些专家建议,45°C 的输出温度使数据中心成为区域供热系统的可行候选者。通过向附近的商业或住宅建筑提供余热,数据中心可以将废弃物转化为社区资产。

环境与地理约束

虽然该系统非常高效,但其有效性取决于地理位置。无需机械制冷机运行的能力取决于室外环境空气温度。在极端气候下(例如,亚利桑那州的 Phoenix),制冷机可能仍比在较凉爽的地区(例如,苏格兰高地)需要更频繁地使用。

关于“零耗水”的澄清

用于填充闭环系统的水与通过蒸发消耗的水之间存在区别。传统的冷却塔通过蒸发排放热量;NVIDIA 的干式冷却器方法消除了这种蒸发损失,这就是“接近于零”的用水量所指的意思。

Sources