AI 超週期的經濟學:Baseten 與自訂推論的轉變
AI 超週期的經濟學:Baseten 與自訂推論的轉變
核心論點:推論是 AI 價值的引擎
AI 推論需求預計將增長至原來的十億倍,這主要受代理應用與更大模型的興起所驅動。雖然目前 95% 的推論支出都流向前沿模型(如 OpenAI 與 Anthropic 的模型),但建立盈利、可行且具防禦性的 AI 公司的道路在於轉向自訂、後訓練的開源模型。
自訂模型的經濟理由
企業正因兩大原因從前沿模型轉向開源替代方案:可行性與防禦性。
財務可行性與毛利率
開源模型的能力通常落後前沿模型約 90 天,但運行成本可低 70% 至 90%。對於規模化的企業而言,這種成本下降對於將毛利率從零或負值提升至可持續水平(40% 至 70%)至關重要。
策略防禦性
完全依賴前沿實驗室會產生策略風險,因為公司實質上將其專有工作流程與使用者訊號交給模型供應商。Tuhin Srivastava 把前沿實驗室比作「東印度公司」,認為透過使用它們的 API,企業正提供實驗室所需的資料,讓它們最終能後訓練出與這些公司專屬工作流程直接競爭的模型。
後訓練工作流程
為了「擁有自己的智慧」,企業正採用後訓練工作流程來打造專屬模型。流程包括:
- 定義效用函數: 公司明確決定要優化的目標(例如,降低醫療語音轉文字模型的轉錄錯誤率)。
- 提供資料: 公司提供專有資料集。
- 選擇基礎模型: 選擇一個開源模型作為起點。
- 支撐架構: 基礎設施(如 Baseten)提供技術框架,將基礎模型與資料轉化為專屬的後訓練模型。
- 部署: 最終模型被整合進推論堆疊,供生產環境使用。
計算危機與垂直整合
計算資源稀缺是一個系統性問題,隨著需求不斷疊加不太可能恢復正常。這種稀缺正推動 AI 基礎設施公司的營運模式轉變。
GPU 的「藥品市場」
GPU 採購目前被描述為一個低效、未成熟的市場,特徵是高滑點與極端價格波動。例如,Baseten 觀察到 B200 Blackwell 晶片的續約報價,時薪幾乎從 $263 翻倍至 $510。
從租用到自有
Baseten 起初專注於軟體層(從約 20 家不同雲端租用計算資源,並將 87 個叢集串接,使 GPU 具備可替代性),現在正朝自有硬體的方向發展。此轉變的驅動因素包括:
- 可取得性: 確保能在不依賴雲端供應商排程(可能需 12‑15 個月)的情況下滿足需求。
- 經濟性: 大規模自有硬體的成本約比租用便宜 30%。
- 規模需求: Baseten 估計兩年內需要相當於 150,000 台 B200 的設備,以支撐其預期成長,約相當於 70 億美元的計算支出。
硬體與生態系統趨勢
NVIDIA 的主導地位
儘管 TPU 與其他「新興晶片」開始出現,NVIDIA 仍因其完整的供應鏈、與 TSMC 的合作關係以及 CUDA 生態系統而保持領先。大多數當前高速開發仍依賴 NVIDIA 原生執行環境,如 TRT‑LLM、vLLM 與 XG Lang。
異質架構
未來硬體預計將朝向異質架構發展,將「prefill」(計算密集)與「decode」(記憶體密集)操作分別放在不同晶片上,而非全部在單一 GPU 上執行。
AI 基礎設施的未來機會
除了模型訓練與推論外,AI 物理建設仍有巨大的經濟機會:
- 能源與電力: 投資支撐大規模計算叢集所需的基礎電力基礎設施。
- 模組化資料中心: 將計算單元標準化為模組化容器,以工業化建設流程,實質上在物理層面打造「計算的 API」。
摘要: Tuhin Srivastava,Baseten 執行長,主張 AI 經濟正從前沿模型轉向自訂、後訓練的開源模型,以實現盈利性、防禦性以及更低的延遲。
標題: AI 超週期的經濟學:Baseten 與自訂推論的轉變