Tokenmaxxing 的演进:从强制采用到复合正确性

Tokenmaxxing 的演进:从强制采用到复合正确性

Tokenmaxxing 的转变:从强制采用到战略性支出

Tokenmaxxing——最大化 LLM 令牌使用的做法——正从一种粗糙的企业 AI 采用工具,演变为提升输出质量的技术策略。早期的 “tokenmaxxing” 让高管将绩效评估与令牌支出挂钩,以迫使抵触的员工使用 AI 工具;而如今出现了一种新的 “复合正确性” 体系,更多的令牌支出通过迭代过程直接关联到更好的结果。

第一波:Tokenmaxxing 作为管理工具

在企业 AI 整合的初始阶段,一些组织把令牌支出当作 AI 采用的代理指标。这导致了扭曲的激励,员工为了达标而在无意义的任务上消耗令牌——比如让两个代理整天互相对话。

有意的摩擦

与其说这只是管理不善,某些人认为这是一种有意的 “粗暴” 政策。通过激励令牌支出,管理层旨在突破高级员工和顽固派对 AI 融入工作流的抵触。目标是让 Cursor 等 AI 辅助编码环境在全体员工中成为常态。

采用阶段的结束

随着 AI 使用逐渐常态化,OpenAI、Anthropic 等提供商的令牌补贴消失(API 价格上涨、订阅限制收紧),通过令牌配额强制采用的激励也随之消失。这标志着第一波 tokenmaxxing 的 “死亡”。

第二波:复合正确性

一种新的技术范式正在出现:令牌支出与质量之间的关系呈正相关,而非中性或负相关。这被称为 “复合正确性”。

从复合错误到复合正确性

过去,长时间让 AI 代理在无人监督下运行会导致 “复合错误”,即小的幻觉会不可逆地嵌入项目中。这使得令牌成本保持低位,因为没有动力让代理 24/7 运行。

如今,行业正转向一种机制:在任务上花费更多令牌会提升成功的可能性。这在以下领域尤为明显:

  • 网络安全: 在寻找漏洞的过程中,安全性正变成一种 “工作量证明” 系统。防御者必须花费比攻击者更多的令牌来发现漏洞,才能强化系统。关于 Anthropic 的 Mythos 模型的报告显示,模型在增加令牌预算后仍持续取得进展,并未出现明显的收益递减。
  • 代理循环: 使用 “循环”(让代理运行直至完成一次回合,然后重新提示)可以让代理将繁重的规格拆分为更小的部分,随时间在无人监督下逐步求解。

开源模型的角色

开源模型平台将在此转变中受益最大。因为前沿模型(如 Opus 4.X 系列)的成本远高于开源模型(如 GLM 5.2),在数学上更可行的是让成本更低的模型通过更多次循环迭代,以获得比一次调用昂贵前沿模型更好的结果。

区分开发者生产力与流水线低效

并非所有高令牌支出都是有生产力的。这里存在两类 tokenmaxxing 的关键区别:

  1. 以开发者为中心的支出: 使用令牌为 Claude Code 等工具提供动力,使工程师更高效。这通常被视为高 ROI 投资。
  2. 以流水线为中心的支出: 为本可以用确定性代码处理的任务构建脆弱、非确定性的 “代理” 流水线。这常导致 “代理级联”,即为修复主代理错误而构建质量检查代理,成本三倍增长却未提升准确性。

未来展望:软件工厂

复合正确性的逻辑终点是 “软件工厂” 或 “暗工厂”——一个代码库能够自行生成代码、审查、修复 bug 并编写测试,且无需人工监督。虽然一些行业说法——比如工程师每天花费 1,000 美元的令牌——被视为夸大,但积极大量消费令牌以实现自主高质量软件生产的底层动机仍然存在。

社区观点与反驳

向复合正确性的转变并非没有批评者。一些业界从业者认为这种转变被夸大了:

"人们已经说 ‘现在情况不一样了,代理现在是复合成功而不是错误’ 至少一年了,但我就是看不出来……我认为在寻找安全漏洞的场景下,这并不重要。"

另一些人则认为最初的 tokenmaxxing 只是 “被高薪管理层盲目跟风” 的症状,而非战略性采用举措。还有人担心,通过令牌支出强行实现正向结果并不能解决 AI 生成代码的理解和责任问题。


摘要:Tokenmaxxing 正从一种用于强制 AI 采用的粗糙管理工具,转变为一种通过迭代循环增加令牌支出以提升准确性的战略技术方法。

标题:Tokenmaxxing 的演进:从强制采用到复合正确性

Sources