AI 超週期的經濟學：Baseten 與自訂推論的轉變

核心論點：推論是 AI 價值的引擎

AI 推論需求預計將增長至原來的十億倍，這主要受代理應用與更大模型的興起所驅動。雖然目前 95% 的推論支出都流向前沿模型（如 OpenAI 與 Anthropic 的模型），但建立盈利、可行且具防禦性的 AI 公司的道路在於轉向自訂、後訓練的開源模型。

企業正因兩大原因從前沿模型轉向開源替代方案：可行性與防禦性。

開源模型的能力通常落後前沿模型約 90 天，但運行成本可低 70% 至 90%。對於規模化的企業而言，這種成本下降對於將毛利率從零或負值提升至可持續水平（40% 至 70%）至關重要。

完全依賴前沿實驗室會產生策略風險，因為公司實質上將其專有工作流程與使用者訊號交給模型供應商。Tuhin Srivastava 把前沿實驗室比作「東印度公司」，認為透過使用它們的 API，企業正提供實驗室所需的資料，讓它們最終能後訓練出與這些公司專屬工作流程直接競爭的模型。

為了「擁有自己的智慧」，企業正採用後訓練工作流程來打造專屬模型。流程包括：

計算資源稀缺是一個系統性問題，隨著需求不斷疊加不太可能恢復正常。這種稀缺正推動 AI 基礎設施公司的營運模式轉變。

GPU 採購目前被描述為一個低效、未成熟的市場，特徵是高滑點與極端價格波動。例如，Baseten 觀察到 B200 Blackwell 晶片的續約報價，時薪幾乎從 $263 翻倍至 $510。

Baseten 起初專注於軟體層（從約 20 家不同雲端租用計算資源，並將 87 個叢集串接，使 GPU 具備可替代性），現在正朝自有硬體的方向發展。此轉變的驅動因素包括：

儘管 TPU 與其他「新興晶片」開始出現，NVIDIA 仍因其完整的供應鏈、與 TSMC 的合作關係以及 CUDA 生態系統而保持領先。大多數當前高速開發仍依賴 NVIDIA 原生執行環境，如 TRT‑LLM、vLLM 與 XG Lang。

未來硬體預計將朝向異質架構發展，將「prefill」（計算密集）與「decode」（記憶體密集）操作分別放在不同晶片上，而非全部在單一 GPU 上執行。

除了模型訓練與推論外，AI 物理建設仍有巨大的經濟機會：

摘要： Tuhin Srivastava，Baseten 執行長，主張 AI 經濟正從前沿模型轉向自訂、後訓練的開源模型，以實現盈利性、防禦性以及更低的延遲。

標題： AI 超週期的經濟學：Baseten 與自訂推論的轉變