Claude Code 扩展思考：隐藏推理与摘要幻象

Claude Code 扩展思考：隐藏推理与摘要幻象

Claude Code 的“扩展思考”是摘要，而非追踪

Claude Code 并未向用户提供驱动其代理行为的实际推理过程；相反，它只提供该推理的摘要版本。虽然应用程序将“扩展思考”呈现为模型逻辑的窗口，但实际的推理令牌被加密成一个约 600 字符长的签名块——该块存储在本地，但只能由 Anthropic 解密。

这一区别对开发者和企业至关重要，因为摘要是对原始逻辑的有损转换。通过 ctrl+o 看到的输出是思考逻辑的摘要，而不是模型在会话期间用于达成特定行动的原始链式思考（CoT）。

隐藏推理的技术实现

Anthropic 采用多种机制确保原始推理对终端用户不可访问：

加密签名： 推理被加密成存放在磁盘上的签名。解密密钥仅由 Anthropic 持有，这意味着本地机器永远得不到查看原始文本所需的密钥。
API 级别摘要： API 返回的是推理的摘要，而非推理本身。
企业门禁： 完整、未摘要的思考输出仅对拥有特定企业协议的用户开放。

对可审计性和安全性的影响

无法访问原始推理会给调试和安全审计带来重大障碍。当模型出现复杂错误——例如因误读项目的 CLAUDE.md 文件而创建了不必要的复杂模块——用户无法检查原始思考以确定逻辑到底在哪一步出错。相反，模型在事后被要求解释其行为时，可能会提供“幻觉式的理由”。

从安全角度看，隐藏推理会引入潜在的攻击向量。如果模型的推理链对用户隐藏，攻击者可能利用提示注入迫使模型执行秘密目标，而摘要输出会掩盖这些恶意活动。当推理与函数调用交错使用时，这种风险尤为突出，因为模型可能在隐藏的推理阶段泄露数据而用户毫不知情。

行业背景：“反蒸馏”护城河

这种行为并非 Anthropic 独有；在 OpenAI 和 Google 的模型中也观察到类似模式。行业分析师和开发者提出了若干解释：

防止模型蒸馏： 原始链式思考数据对训练更小、更高效的模型价值极高。通过隐藏原始推理，AI 实验室阻止竞争对手利用其前沿模型的逻辑进行知识蒸馏。
保护研发成果： 模型处理信息的具体方式被视为商业机密。公开原始思考过程会向竞争对手暴露模型智能的内部机制。
理性洗白（Sane‑washing）： 有人认为原始推理可能是无意义、重复或“死循环”（消耗令牌却无进展）。摘要使模型看起来比实际更有目的性和指向性。

替代方案与变通方法

对于需要完全透明的代理推理的开发者，已有多种替代方案被讨论：

开源模型： 如 DeepSeek R1 或 Qwen 等模型提供更透明的推理轨迹，尽管这些轨迹有时对人类阅读者而言难以理解或毫无意义。
手动提示策略： 部分用户通过强制模型在执行代码前生成明确的产出——如规范文档、实现指南和检查清单——来缓解透明度不足的问题，从而手动创建思考过程的审计轨迹。
本地执行： 使用 OpenCode 等工具配合本地部署的模型，可完整查看推理过程，绕过基于云的加密和摘要层。

SUMMARY: Claude Code 使用加密的推理块，并仅向用户提供其思考过程的摘要版本，这引发了关于可审计性、安全性以及防止模型蒸馏的担忧。

TITLE: Claude Code 扩展思考：隐藏推理与摘要幻象

Sources

HNThe text in Claude Code’s “Extended Thinking” output