Claude Code 延伸思考:隱藏推理與摘要幻象

Claude Code 延伸思考:隱藏推理與摘要幻象

Claude Code 的「延伸思考」是摘要,而非追蹤

Claude Code 並未向使用者提供驅動其代理行為的實際推理過程;相反,它只提供該推理的摘要版本。雖然應用程式將「延伸思考」呈現為模型邏輯的窗口,實際的推理代幣卻被加密成一個約 600 個字元長的簽名區塊——此區塊儲存在本機,但只能由 Anthropic 解密。

此區別對開發者與企業而言至關重要,因為摘要是原始邏輯的有損轉換。透過 ctrl+o 看到的輸出是思考邏輯的摘要,而非模型在會話期間用以達成特定行動的原始連鎖思考(CoT)。

隱藏推理的技術實作

Anthropic 採用了多種機制來確保原始推理對最終使用者不可取得:

  • 加密簽名:推理被加密成儲存在磁碟上的簽名。解密金鑰僅由 Anthropic 持有,意味著本機永遠不會取得檢視原始文字所需的金鑰。
  • API 級別摘要:API 回傳的是推理的摘要,而非推理本身。
  • 企業門檻:完整、未摘要的思考輸出僅限於具特定企業協議的使用者存取。

對可稽核性與安全性的影響

無法取得原始推理會為除錯與安全稽核帶來重大障礙。當模型犯下複雜錯誤——例如因誤解專案的 CLAUDE.md 檔案而產生不必要的複雜模組——使用者無法檢查原始思考以確定邏輯失敗的具體位置。相反,模型在事後被要求解釋其行動時,可能會提供「幻覺式的理由」。

從安全角度看,隱藏推理會產生潛在的攻擊向量。如果模型的推理鏈對使用者隱蔽,攻擊者可能利用提示注入(prompt injection)迫使模型執行秘密目標,而摘要輸出則隱藏了惡意活動。當推理與函式呼叫交錯使用時,這種風險尤為突出,模型可能在隱蔽的推理階段洩漏資料而使用者毫不知情。

產業背景:「反蒸餾」護城河

此行為並非 Anthropic 獨有;在 OpenAI 與 Google 的模型中也觀察到類似模式。產業分析師與開發者提出了幾個造成此不透明性的原因:

  • 防止模型蒸餾:原始的連鎖思考資料對訓練更小、更高效的模型極具價值。透過隱藏原始推理,AI 實驗室阻止競爭者利用其前沿模型的邏輯將知識蒸餾到自家模型中。
  • 保護研發:模型處理資訊的具體方式被視為商業機密。公開原始思考過程會向競爭者暴露模型智慧的內部機制。
  • 理性清洗:有些人認為原始推理可能是無意義、重複或「死循環」的(燃燒代幣卻無進展)。摘要使模型看起來比實際更有目的性與導向性。

替代方案與變通方法

對於需要完整透明度的開發者,已討論出多種替代方案:

  • 開源模型:如 DeepSeek R1 或 Qwen 等模型提供較為透明的推理痕跡,儘管這些痕跡有時對人類讀者而言仍難以理解或顯得無意義。
  • 手動提示策略:部分使用者透過強制模型產生明確的產出——例如規格文件、實作指南與檢查清單——再執行程式碼,從而手動建立思考過程的稽核軌跡。
  • 本地執行:使用 OpenCode 等工具搭配本地部署的模型,可完整觀察推理過程,繞過雲端加密與摘要層。

SUMMARY: Claude Code 使用加密的推理區塊,僅向使用者提供其思考過程的摘要版本,這引發了關於可稽核性、安全性以及防止模型蒸餾的憂慮。

TITLE: Claude Code 延伸思考:隱藏推理與摘要幻象

Sources