AI 超周期的经济学：Baseten 与定制推理的转变

核心论点：推理是 AI 价值的引擎

AI 推理需求预计将增长至原来的十亿倍，驱动力来自代理型应用的兴起和更大的模型。虽然当前 95% 的推理支出用于前沿模型（如 OpenAI 和 Anthropic 的模型），但构建盈利、可行且具有防御性的 AI 公司之路在于转向定制的、后训练的开源模型。

公司正因两大主要原因从前沿模型转向开源替代方案：可行性和防御性。

开源模型的能力通常落后前沿模型约 90 天，但运行成本可降低 70%~~90%。对于规模化业务而言，这种成本下降对于将毛利率从零或负值提升至可持续水平（40%~~70%）至关重要。

完全依赖前沿实验室会产生战略风险，公司实际上将其专有工作流和用户信号交给模型提供商。Tuhin Srivastava 将前沿实验室比作“东印度公司”，认为通过使用它们的 API，公司向实验室提供了它们最终用于后训练模型的数据，而这些模型会直接与这些公司专有的工作流竞争。

为了“拥有自己的智能”，公司正在采用后训练工作流来创建专用模型。该过程包括：

计算稀缺是一个系统性问题，随着需求复合增长不太可能恢复常态。这种稀缺推动了 AI 基础设施公司的运营方式转变。

GPU 采购目前被描述为一个低效、未成熟的市场，特征是高滑点和极端价格波动。例如，Baseten 观察到 B200 Blackwell 芯片的续约报价几乎将每小时费用从 $263 翻倍至 $510。

虽然 Baseten 最初专注于软件层（从约 20 家不同云服务租用计算资源，并将 87 个集群拼接在一起，使 GPU 具备可替代性），但公司正转向拥有自己的硬件。这一转变的驱动因素包括：

尽管 TPU 和其他“新芯片”出现，NVIDIA 仍凭借完善的供应链、与 TSMC 的合作关系以及 CUDA 生态系统保持主导。当前大多数高速开发依赖 NVIDIA 原生运行时，如 TRT-LLM、vLLM 和 XG Lang。

未来硬件预计将向异构架构演进，将“prefill”（计算密集）和“decode”（内存密集）操作分配到不同芯片上，而不是全部在单一 GPU 上运行。

除了模型训练和推理之外，AI 物理构建也蕴含巨大的经济机会：

摘要： Tuhin Srivastava，Baseten CEO，认为 AI 经济正从前沿模型转向定制的、后训练的开源模型，以实现盈利性、防御性和更低的延迟。

标题： AI 超周期的经济学：Baseten 与定制推理的转变