Claude Code 延伸思考：隱藏推理與摘要幻象

Claude Code 延伸思考：隱藏推理與摘要幻象

Claude Code 的「延伸思考」是摘要，而非追蹤

Claude Code 並未向使用者提供驅動其代理行為的實際推理過程；相反，它只提供該推理的摘要版本。雖然應用程式將「延伸思考」呈現為模型邏輯的窗口，實際的推理代幣卻被加密成一個約 600 個字元長的簽名區塊——此區塊儲存在本機，但只能由 Anthropic 解密。

此區別對開發者與企業而言至關重要，因為摘要是原始邏輯的有損轉換。透過 ctrl+o 看到的輸出是思考邏輯的摘要，而非模型在會話期間用以達成特定行動的原始連鎖思考（CoT）。

隱藏推理的技術實作

Anthropic 採用了多種機制來確保原始推理對最終使用者不可取得：

加密簽名：推理被加密成儲存在磁碟上的簽名。解密金鑰僅由 Anthropic 持有，意味著本機永遠不會取得檢視原始文字所需的金鑰。
API 級別摘要：API 回傳的是推理的摘要，而非推理本身。
企業門檻：完整、未摘要的思考輸出僅限於具特定企業協議的使用者存取。

對可稽核性與安全性的影響

無法取得原始推理會為除錯與安全稽核帶來重大障礙。當模型犯下複雜錯誤——例如因誤解專案的 CLAUDE.md 檔案而產生不必要的複雜模組——使用者無法檢查原始思考以確定邏輯失敗的具體位置。相反，模型在事後被要求解釋其行動時，可能會提供「幻覺式的理由」。

從安全角度看，隱藏推理會產生潛在的攻擊向量。如果模型的推理鏈對使用者隱蔽，攻擊者可能利用提示注入（prompt injection）迫使模型執行秘密目標，而摘要輸出則隱藏了惡意活動。當推理與函式呼叫交錯使用時，這種風險尤為突出，模型可能在隱蔽的推理階段洩漏資料而使用者毫不知情。

產業背景：「反蒸餾」護城河

此行為並非 Anthropic 獨有；在 OpenAI 與 Google 的模型中也觀察到類似模式。產業分析師與開發者提出了幾個造成此不透明性的原因：

防止模型蒸餾：原始的連鎖思考資料對訓練更小、更高效的模型極具價值。透過隱藏原始推理，AI 實驗室阻止競爭者利用其前沿模型的邏輯將知識蒸餾到自家模型中。
保護研發：模型處理資訊的具體方式被視為商業機密。公開原始思考過程會向競爭者暴露模型智慧的內部機制。
理性清洗：有些人認為原始推理可能是無意義、重複或「死循環」的（燃燒代幣卻無進展）。摘要使模型看起來比實際更有目的性與導向性。

替代方案與變通方法

對於需要完整透明度的開發者，已討論出多種替代方案：

開源模型：如 DeepSeek R1 或 Qwen 等模型提供較為透明的推理痕跡，儘管這些痕跡有時對人類讀者而言仍難以理解或顯得無意義。
手動提示策略：部分使用者透過強制模型產生明確的產出——例如規格文件、實作指南與檢查清單——再執行程式碼，從而手動建立思考過程的稽核軌跡。
本地執行：使用 OpenCode 等工具搭配本地部署的模型，可完整觀察推理過程，繞過雲端加密與摘要層。

SUMMARY: Claude Code 使用加密的推理區塊，僅向使用者提供其思考過程的摘要版本，這引發了關於可稽核性、安全性以及防止模型蒸餾的憂慮。

TITLE: Claude Code 延伸思考：隱藏推理與摘要幻象

Sources

HNThe text in Claude Code’s “Extended Thinking” output