NVIDIA Rubin 液冷:將資料中心用水量降至接近零

NVIDIA Rubin 液冷:將資料中心用水量降至接近零

NVIDIA Rubin 實現 100% 液冷以消除用水

NVIDIA 的 Rubin 代 AI 基礎設施是首個實施 100% 液冷的系統,將所有風扇從機箱中移除,採用封閉迴路液冷方式。透過允許冷卻液在最高 45°C(113°F)下運作,NVIDIA 使資料中心能從蒸發式冷卻塔轉換為乾式冷卻器設計,將每兆瓦每年 260 萬加侖的設施用水量降低至接近零。

45°C 液冷的效率

提升冷卻液的工作溫度,使熱量能更有效地直接散發到室外空氣,而不需要耗能高的機械冷卻機組。此方法提供多項關鍵的營運優勢:

  • 降低能源成本: 業界估計,僅將冷卻機組溫度提升一度,即可降低約 4% 的冷卻能源成本。對於 50 兆瓦的超大規模設施而言,轉換為液冷基礎設施每年可節省超過 400 萬美元。
  • 無冷卻機運作: 在氣候條件良好的地區,45°C 架構允許使用室外乾式冷卻器(大型散熱鰭片)實現「無冷卻機」運作。在這些環境中,機械製冷僅在一年中極少時間(某些氣候約 1%)需要啟動。
  • 效能穩定性: 儘管冷卻液溫度較高,處理器仍能維持完整效能。冷卻液以 45°C 進入晶片後,吸收熱負載通常在 55°C 左右離開,而冷板則將矽晶保持在驗證的操作範圍內。

架構轉變:從混合液冷到全液冷

傳統的液冷伺服器屬於混合系統,僅有 GPU 與 CPU 配備冷板,其餘元件仍依賴風冷散熱鰭。Rubin 架構重新設計整個伺服器,使其全部採用液冷,帶來多項實體與營運上的變化:

  • 提升機架密度: 由於不需要為氣流預留空間,全液冷伺服器可大幅提升計算密度。原本佔用六個機架單位的系統,現在可縮減至兩個單位。
  • 消除噪音: 移除所有冷卻風扇後,系統不再產生傳統資料中心常見的 85 分貝以上噪音。
  • 簡化基礎設施: 伺服器採用封閉式前面板,而非需開孔以供空氣進入的邊框,冷卻迴路亦重新設計,使用單一進、出管路即可將液體分配至多顆高功率晶片。

技術規格與實作

冷卻系統使用 75% 水與 25% 丙二醇的混合液。液體從冷卻液分配單元(CDU)流向伺服器,形成封閉迴路。此封閉迴路設計確保系統加滿後,冷卻過程不再額外消耗新水。

社群見解與考量

圍繞此公告的技術討論同時指出此架構的潛在應用與仍待解決的挑戰:

廢熱回收與區域供熱

部分專家認為,45°C 的輸出溫度使資料中心成為區域供熱系統的可行候選。將剩餘熱能供應給附近的商業或住宅建築,資料中心即可將廢熱轉化為社區資產。

環境與地理限制

雖然系統效能極佳,但其成效受地理條件限制。能否在無機械冷卻機的情況下運作,取決於室外環境溫度。在極端氣候(如美國亞利桑那州鳳凰城)下,仍可能較頻繁需要使用冷卻機;而在較涼爽的地區(如蘇格蘭高地)則需求較低。

「零用水」的說明

需區分填充封閉迴路系統所用的水與因蒸發而消耗的水。傳統冷卻塔透過蒸發大量用水以散熱;NVIDIA 的乾式冷卻方式消除了這種蒸發損失,這即是所謂的「接近零」用水量。


摘要:NVIDIA 的 Rubin 代 AI 基礎設施採用 100% 液冷,冷卻液上限 45°C,以消除蒸發用水並降低冷卻能源成本。

標題:NVIDIA Rubin 液冷:將資料中心用水量降至接近零

Sources