Agentic Bounty Trap:为什么 AI 编程智能体在开源悬赏中举步维艰
Agentic Bounty Trap:为什么 AI 编程智能体在开源悬赏中举步维艰
“自主 AI 智能体”的承诺俘获了开发者社区的想象力。最近一条疯传的推文声称,一个编程智能体在无人监督的情况下运行了 22 小时,发现了一个悬赏,提交了一个 pull request (PR),并赚取了 $16.88。对许多人来说,这感觉像是一个概念验证:闭环终于实现了,AI 现在可以通过解决开源问题来产生被动收入。
然而,公共悬赏市场的现实远非如此辉煌。开发者 ztc00 试图使用 Claude 在仅 $20 的 token 预算下复制这一成功,结果发现,疯传的推文与可持续的商业模式之间存在着巨大的鸿沟。结果是收益为 $0,并得到了一组关于当前 AI 驱动的开源贡献现状的冷静数据。
实验:自动化 vs. 现实
设置非常简单:使用 Claude 作为智能体来在 Algora(一个维护者在 GitHub issues 中标注金额的平台)上发现公开的悬赏,克隆仓库,尝试修复,并运行测试。在提交之前,保持了“人在回路”的审查,以确保 PR 的质量。
尽管该闭环在技术上是可行的,但实验立即遇到了并非技术性、而是系统性的障碍。遇到的第一个悬赏是一个 $100 的 TypeScript 问题,但它被标记为“Reserved for SE interview”(为 SE 面试预留),从而被限制了访问。维护者已经因为用户试图“窃取”旨在为招聘候选人准备的悬赏而封禁了用户。这凸显了一个关键的第一课:许多公开悬赏实际上并不对公众开放;它们被用作招聘工具。
数据:一个饱和的市场
为了更好地了解现状,作者构建了 scout.py,一个用于分析带有 Algora 标签的公开 issue 的工具。数据揭示了几乎每个悬赏都属于以下三个问题类别之一:
- Sandbox Spam(沙盒垃圾信息): 低价值悬赏(例如,$1),AI 尝试的 token 成本超过了潜在收益。
- Hyper-Saturation(过度饱和): 合法的悬赏($50–$1,000)通常在几小时内吸引 8 到 158 个 "/attempt" 评论。等到智能体识别出问题时,往往已经有 10 多个正在进行的 open PRs。
- The Deadlock(僵局): 维护者指派了一名“猎人”后,该用户随后保持沉默,而其他投机性的贡献者提交的 PRs 被关闭且未被合并,因为他们“强行介入”了已指派的用户。
结论是残酷的:公共悬赏市场现在是一个“过度捕捞的池塘”。因为智能体可以在毫秒级内认领领悬赏,瓶颈已经从寻找解决方案转向了维护者审查。维护者无法现实地为单个 $50 的 bug 审查 15 个 PRs;他们通常会选择第一个可接受的方案并拒绝其他所有方案。
“成熟”策略
意识到速度是一场必败的游戏,作者转向了“收获”策略。该工具被设计为标记“成熟”的悬赏——即那些已被认领并指派,但没有 open PR 且已沉默 14 天以上的 issue。理论上,许多激进的悬赏猎人并不会贯彻到底。
尽管逻辑成立,但在两天内的三次扫描中,未发现任何“成熟”的候选对象。这表明,即使是“被遗弃”的市场也太小,或者被其他智能体监控得过于高效。
关键洞察与反论点
Hacker News 上的社区反应为实验增添了一层社会学批判。关于这种方法的持续性,出现了几个观点:
公共财产的悲剧
批评者认为,AI 生成的 PRs 正在为开源创造一种“公共财产的悲剧”。当数百个智能体涌入仓库,提交低质量或略有偏差的解决方案时,他们为维护者带来了巨大的噪音。
"AI 对非你本人项目贡献的意义不大。我们所有人都能访问相同的模型,所以你通过增加噪音层级来帮助任何人都没有任何好处。"
维护者的负担
一些用户指出,公司实际上正在停止使用悬赏,因为信噪比已经骤降。筛选 AI 生成的 false positives 的精力往往超过了修复 bug 的收益。
经济学误算
从 ROI 的角度来看,单位经济效益是脆弱的。如果一个智能体在消耗了 $16 的 token 成本后赚取了 $16.88,利润率微乎其微。那些疯传的成功案例很可能源于用户在固定费率订阅模式下并行运行“智能体集群”而非单线程、按 token 计费的脚本。
对未来 AI 智能体的启示
对于那些希望构建自主编程智能体的人来说,实验建议了三个转向:
避免公开的“消防栓”: 远离 Algora 等公开看板,转向私有安全平台(HackerOne, Bugcrowd),在这些平台,解决方案的质量和深度比提交速度更受重视。
Build Trust First(先建立信任): 持续贡献开源软件 (OSS) 的唯一可持续方式是成为一名公认的贡献者。维护者更倾向于合并并支付那些来自他们信任的用户提交的 PRs。
Build Tooling, Not Hunters(构建工具,而非猎人): 与其在饱和的饱和市场中竞争,不如构建帮助他人应对市场规律的的的基础设施(如
scout.py)
最终,实验证明,虽然 AI 编程的“闭环”在技术上可行,但经济闭环目前是破裂的。市场已经达到了一种平衡,即 AI 智能体的速度已经使得传统的公开悬赏模型变得过时。