AI 超周期的经济学:Baseten 与定制推理的转变

AI 超周期的经济学:Baseten 与定制推理的转变

核心论点:推理是 AI 价值的引擎

AI 推理需求预计将增长至原来的十亿倍,驱动力来自代理型应用的兴起和更大的模型。虽然当前 95% 的推理支出用于前沿模型(如 OpenAI 和 Anthropic 的模型),但构建盈利、可行且具有防御性的 AI 公司之路在于转向定制的、后训练的开源模型。

定制模型的经济理由

公司正因两大主要原因从前沿模型转向开源替代方案:可行性和防御性。

财务可行性与毛利率

开源模型的能力通常落后前沿模型约 90 天,但运行成本可降低 70%90%。对于规模化业务而言,这种成本下降对于将毛利率从零或负值提升至可持续水平(40%70%)至关重要。

战略防御性

完全依赖前沿实验室会产生战略风险,公司实际上将其专有工作流和用户信号交给模型提供商。Tuhin Srivastava 将前沿实验室比作“东印度公司”,认为通过使用它们的 API,公司向实验室提供了它们最终用于后训练模型的数据,而这些模型会直接与这些公司专有的工作流竞争。

后训练工作流

为了“拥有自己的智能”,公司正在采用后训练工作流来创建专用模型。该过程包括:

  1. 定义效用函数: 公司明确要优化的目标(例如,最小化医学语音转文字模型的转录错误)。
  2. 数据提供: 公司提供专有数据集。
  3. 基础模型选择: 选取一个开源模型作为起点。
  4. 支撑框架: 基础设施(如 Baseten)提供技术框架,将基础模型和数据转化为专用的后训练模型。
  5. 部署: 将生成的模型集成到推理栈中用于生产。

计算危机与垂直整合

计算稀缺是一个系统性问题,随着需求复合增长不太可能恢复常态。这种稀缺推动了 AI 基础设施公司的运营方式转变。

GPU 的“药品市场”

GPU 采购目前被描述为一个低效、未成熟的市场,特征是高滑点和极端价格波动。例如,Baseten 观察到 B200 Blackwell 芯片的续约报价几乎将每小时费用从 $263 翻倍至 $510。

从租赁到拥有的转变

虽然 Baseten 最初专注于软件层(从约 20 家不同云服务租用计算资源,并将 87 个集群拼接在一起,使 GPU 具备可替代性),但公司正转向拥有自己的硬件。这一转变的驱动因素包括:

  • 可访问性: 确保能够满足需求,而不依赖云提供商的交付时间(可能需要 12‑15 个月)。
  • 经济性: 大规模拥有硬件的成本约比租赁低 30%。
  • 规模需求: Baseten 估计两年内需要相当于 150,000 台 B200 的算力,以支撑其预期增长,约相当于 70 亿美元的计算支出。

硬件与生态系统趋势

NVIDIA 的主导地位

尽管 TPU 和其他“新芯片”出现,NVIDIA 仍凭借完善的供应链、与 TSMC 的合作关系以及 CUDA 生态系统保持主导。当前大多数高速开发依赖 NVIDIA 原生运行时,如 TRT-LLM、vLLM 和 XG Lang。

异构架构

未来硬件预计将向异构架构演进,将“prefill”(计算密集)和“decode”(内存密集)操作分配到不同芯片上,而不是全部在单一 GPU 上运行。

AI 基础设施的未来机会

除了模型训练和推理之外,AI 物理构建也蕴含巨大的经济机会:

  • 能源与电力: 投资支撑大规模计算集群的底层电力基础设施。
  • 模块化数据中心: 将计算单元标准化为模块化容器,以工业化的方式进行建设,实质上在物理层面创建一个“计算的 API”。

摘要: Tuhin Srivastava,Baseten CEO,认为 AI 经济正从前沿模型转向定制的、后训练的开源模型,以实现盈利性、防御性和更低的延迟。

标题: AI 超周期的经济学:Baseten 与定制推理的转变

Sources