為什麼即使擁有無限 GPU 的 AI 實驗室仍會失敗:來自 Anjney Midha 的洞見
為什麼即使擁有無限 GPU 的 AI 實驗室仍會失敗:來自 Anjney Midha 的洞見
基礎建設差距:為何算力規模不等於進步
許多 AI 實驗室目前擁有充足的資金與算力,卻未能推出重大的突破。這種失敗往往是因為基礎建設管理不善,以及缺乏「產出最大化」——即最大化可用資源實際效用的紀律,而不僅僅是增加資源的數量。
基礎建設浪費的成本
在大規模環境中,浪費會迅速累積。Anjney Midha 指出,在 Google,節點使用率低於 95% 常被視為故障。相較之下,許多當前的前沿實驗室在缺乏迭代上線的情況下過快擴張,導致顯著的低效率。
衡量叢集健康的兩個主要指標:
- 節點分配率:資料中心中目前正在使用的卡片比例。理想情況下應達到 96% 或更高。
- 模型 FLOPs 利用率 (MFU):算力的實際效率。目前最佳的 MFU 介於 60% 到 70% 之間。
負責任的基礎建設與社群對齊
AI 資料中心的擴張日益受到社群對電網與環境影響的反彈。Midha 建議採取「負責任的基礎建設」模式,將邊際算力成本(例如每小時額外 $0.50)直接支付給當地社群,無論是以現金形式或用於減少當地電費。這樣可將資料中心從侵入者轉變為社群夥伴,降低許可失敗的風險。
AMP Grid:獨立系統營運商模型
AMP 並未追求全棧整合模型(即同一家公司同時擁有晶片、資料中心與模型),而是打造一個作為 獨立系統營運商 (ISO) 的算力網格。
池化與可替代性
類似電網,AMP Grid 旨讓「兆 FLOPs 如兆瓦般流動」。目標是在雲端與矽供應商之間建立池化與利用層,消除被孤立的算力池。
動態優先排序與可中斷需求
借鑒 Google 的 Borg/GQM 排程器,Midha 主張 可中斷需求。此系統使用投標或信用機制進行動態優先排序:
- 團隊保證獲得基礎負載容量。
- 研究高峰期透過信用系統處理,信用支出較高的高優先級工作可中斷低優先級工作。
「產出最大化」哲學
Midha 將「產出最大化」定義為透過消除整個堆疊(從 GPU 到人力資本與醫療支出)的浪費,以追求最佳結果。
全堆疊對齊
擴張常會因 API 與組織抽象層產生「有損」的溝通。Midha 認為唯一能在不失對齊的情況下擴張的方式是:
- 嚴格標準化:採用開放協議與 API 規範,確保無損溝通。
- 全新能力:發現突破(例如室溫超導體),創造出如此豐沛的資源,使先前的瓶頸變得無關緊要。
系統共同設計與信任邊界
對於非 NVIDIA 晶片新創公司而言,主要瓶頸是「信任邊界」。要進行有效的系統共同設計,晶片製造商需要在 tape‑out 前數年就能看到未來模型架構。Midha 強調,一些成功的新創公司並非每場戰役都要硬碰硬;例如,他們採用 NVIDIA 的參考架構作為實體佈局,便能將創新重點放在邏輯晶片上,同時保持與現有資料中心上線計畫的相容性。
文化是最終的護城河
Midha 主張文化不是一套信念,而是一系列行動。他認為許多實驗室失敗是因為缺乏明確的「P0」(優先零)以及在艱苦環境中鍛造的文化。
困境在成功中的角色
以 Anthropic 為例,Midha 認為他們早期的掙扎——被投資人拒絕、資源少於 OpenAI——是一種特徵而非缺陷。這種稀缺迫使他們更有效率,並嚴格定義自己的 P0(即程式編寫)。
「未雨綢繆」與運氣
針對 Anthropic 如何「破解」程式編寫的問題,Midha 拒絕將其歸因於幸運的骰子。他引用「運氣偏愛有準備的頭腦」的原則。Anthropic 在程式編寫上的成功歸功於四年的嚴格準備、偏執與效率,讓他們在正確的資料與情境出現時能即時把握。
AI 應用:預測末期生命
除了前沿模型,Midha 強調 AI 在醫療領域的應用,特別是 末期生命預測。
在美國醫療體系中,對末期診斷的不確定性常導致激進且低品質的末期照護,佔用約 30% 的 Medicare/Medicaid 支出。Midha 主張 AI 能提供數量級更精確的剩餘壽命預測。這種精確度讓患者能以科學而非純粹文化或宗教的方式決策最後的日子,減輕納稅人負擔並提升生活品質。