Agentic Bounty Trap:為什麼 AI 編碼代理程式在開源賞金任務中舉步維艱

Agentic Bounty Trap:為什麼 AI 編碼代理程式在開源賞金任務中舉步維艱

「自主 AI 代理程式」的承諾吸引了開發者社群的想像力。最近一則瘋傳的推文聲稱,一個編碼代理程式在無監督狀態下運行了 22 小時,發現了一個賞金任務,提交了 pull request (PR),並賺到了 16.88 美元。對許多人來說,這感覺像是一個概念驗證:閉環終於完成了,AI 現在可以透過解決開源問題來產生被動收入。

然而,公開賞金市場的現實遠非如此凱旋。開發者 ztc00 嘗試使用 Claude 並投入僅 20 美元的 token 預算來複製這種成功,結果發現,瘋傳的推文與可持續的商業模式之間存在著巨大的鴻溝。最終的結果是收入為 0 美元,並得到了一組關於目前 AI 驅動開源貢獻現狀的冷峻數據。

實驗:自動化 vs. 現實

設置非常簡單:使用 Claude 作為代理程式來在 Algora(一個維護者在 GitHub issues 中標註金額的平台)上發現公開的賞金任務,clone 儲存庫,嘗試修復,並運行測試。為了確保提交前的 PR 品質,實驗中維持了「人機協作」(human-in-the-loop) 的審查機制。

儘管該流程在技術上是可行的,但實驗立即遇到了非技術性、而是系統性的障礙。遇到的第一個賞金任務是一個 100 美元的 TypeScript 問題,但它被標記為「Reserved for SE interview」(保留給軟體工程師面試),因此無法進入。維護者已經因為用戶嘗試「偷取」原本預留給招聘候選人的賞金而封禁了用戶。這凸顯了第一個關鍵教訓:許多公開賞金任務其實並不對公眾開放;它們被用作招聘工具。

數據:飽和的市場

為了更深入了解現況,作者開發了 scout.py,這是一個用來分析帶有 Algora 標籤的公開 issue 的工具。數據顯示,幾乎每個賞金任務都屬於以下三種有問題的類別之一:

  1. Sandbox Spam(沙盒垃圾訊息): 低價值的賞金(例如 1 美元),AI 嘗試的 token 成本超過了潛在的報酬。
  2. Hyper-Saturation(極度飽和): 合法的賞金(50 至 1,000 美元)通常在幾小時內就會吸引 8 到 158 個 "/attempt" 評論。當代理程式識別出問題時,往往已經有 10 個以上的 PR 在處理中。
  3. The Deadlock(僵局): 某些 issue 標記了某位獵人(hunter)負責,但該獵人隨後便音訊全無,而其他機會主義者提交的 PR 卻因為「插隊」了已分配用戶而遭到關閉且未被合併。

結論非常冷峻:公開賞金市場現在是一個「魚獲過剩的池塘」。因為代理程式可以在毫秒內聲稱擁有賞金任務,瓶頸已經從「尋找」解決方案轉向了「維護者審查」。維護者不可能現實地去審查一個 50 美元的 bug 修復 15 個 PR;他們通常會選擇第一個可接受的方案,並拒絕其餘的方案。

「成熟」策略

意識到速度並非勝算,作者轉向了「收割」策略。該工具不再是爭先恐後,而是被設計用來標記「成熟」的賞金任務——即那些已被聲稱並分配,但卻沒有任何公開 PR,且已靜止超過 14 天以上的任務。理論上,許多激進的賞金獵人並不會完成任務。

儘管邏輯合理,但在兩天內的三次掃描中,完全沒有發現任何成熟的候選任務。這顯示出,即使是「被遺棄」的市場,其規模也太小,或者被其他代理程式監控得非常有效率。

關鍵洞察與反對觀點

Hacker News 上的社群反應為實驗增添了一層社會學批判。關於這種方法的持續性,出現了幾個觀點點:

公地悲劇 (The Tragedy of the Commons)

批評者認為,AI 生成的 PR 淹沒了開源專案,正在造成開源界的「公地悲劇」。當數百個代理程式向儲存庫灌注低品質或略有偏差的解決方案時,他們為維護者製造了巨大的噪音。

"AI 對於非你個人專案的貢獻是毫無意義的。我們大家都能存取相同的模型,所以你透過增加噪音層級來幫助任何人都是徒勞的。"

維護者的負擔

一些用戶指出,公司實際上正在「停止」使用賞金任務,因為信噪比(signal-to-noise ratio)大幅下降。篩選 AI 生成的錯誤正向案例(false positives)所需的精力往往超過了修復 bug 的效益。

經濟學上的誤算

從投資報酬率 (ROI) 的角度來看,單元經濟學是脆弱的。如果一個代理程式花費 16 美元的 token 成本來賺取 16.88 美元,利潤極其微薄。那些瘋傳的成功案例很可能源於用戶在固定費率訂閱制下,並行運行「代理程式群組」(fleets) 而非單執行緒、按 token 計費的腳本。

給未來 AI 代理程式的建議

對於那些想要開發自主編碼代理程式的人,實驗建議了三個轉向方向:

  • 避開公開的資訊洪流: 遠離像 Algora 這樣的公開看板,轉向私有安全平台(如 HackerOne, Bugcrowd),在那裡解決方案的品質與深度比提交速度更受重視。

  • 建立信任感: 貢獻開源專案 (OSS) 的唯一持續方式是成為一名受認可的貢獻者。維護者更有可能合併並支付那些他們信任的用戶所提交的 PR。

  • 建立工具,而非獵人: 與其在飽和的市場中競爭,不如開發能幫助他人應對市場的這種基礎設施(例如 scout.py)。

最終,實驗證明了雖然 AI 編碼的「閉環」在技術上可行,但經濟閉環目前是破碎的。市場已經達到了一種平衡,使得 AI 代理程式的速度使得傳統的公開賞金模式已不再適用。

Sources