GPT-5.6 Sol, Terra, and Luna 发布说明

OpenAI 推出了 GPT-5.6 模型系列的限量预览版，引入了由 Sol（旗舰型）、Terra（平衡型）和 Luna（快速且经济型）组成的层级化能力结构。此次发布重点在于提升在编程、生物学和网络安全领域的智能体（agentic）能力，同时实施了更严格、分层的安全堆栈，以减轻高风险的攻击性用途。

新模型层级与定价

OpenAI 正在转向一种命名规范，其中版本号代表代际，而名称代表能力层级。这使得不同的层级可以按照各自的时间表进行演进。

模型	定位	输入价格 (每 1M tokens)	输出价格 (每 1M tokens)
GPT-5.6 Sol	旗舰型 / 最高智能	$5.00	$30.00
GPT-5.6 Terra	平衡型 / 日常工作	$2.50	$15.00
GPT-5.6 Luna	快速型 / 最低成本	$1.00	$6.00

Prompt Caching 更新

GPT-5.6 引入了更具可预测性的 prompt caching，支持显式的缓存断点（cache breakpoints）以及至少 30 分钟的最短缓存生命周期。缓存写入按未缓存输入速率的 1.25 倍计费，而缓存读取则保持 90% 的折扣。

高级能力与智能体工作流

GPT-5.6 Sol 引入了两种新的操作模式，以处理复杂的、多步骤的推理任务：

max reasoning effort: 为模型提供额外的推理时间，以便在响应之前进行深度推理。
ultra mode: 利用子智能体（subagents）来加速复杂工作，超越了单一智能体的能力范围。

特定领域性能

编程: Sol 在 Terminal-Bench 2.1 上创下了新的行业领先水平（state of the art），特别是在需要工具协调和迭代的命令行工作流方面有所改进。
生物学: 在 GeneBench v1 上，Sol 在长程基因组学和定量生物学分析方面表现优于 GPT-5.5，同时消耗更少的 tokens。
网络安全: Sol 提升了漏洞研究的性能-效率边界。在 ExploitBench 上，其表现可与 Mythos Preview 竞争，同时仅使用约三分之一的输出 tokens。在 ExploitGym 中，随着推理能力的增强，所有三个 5.6 模型在网络安全能力方面都表现出强劲的提升。

分层安全保障堆栈与安全框架

为了在增强模型能力的同时平衡使用风险，OpenAI 实施了分层的安全保障堆栈。其目标是允许合法的防御性工作（例如，补丁开发、安全教育），同时限制禁止的攻击性活动。

安全层级

模型级训练: 模型经过训练，能够拒绝提供禁止的网络安全协助，即使面对越狱（jailbreak）尝试或伪装意图。
实时分类器: 使用端误用分类器在生成过程中监控输出。高风险检测结果可能会暂停生成，以便由更大型的推理模型进行审核。
账户级信号: 系统会分析跨多个对话的模式，以区分持续性的恶意行为与合法的双用途安全研究。
差异化访问: 在预览阶段，敏感能力默认情况下不会广泛开放。

自动化红队测试

OpenAI 利用了超过 700,000 A100 等效 GPU 小时进行自动化红队测试，以识别“通用越狱”（universal jailbreaks）——即在各种语境下均有效的攻击，而非仅针对特定提示词的攻击。

部署与政府协调

GPT-5.6 目前正处于针对一小部分受信任合作伙伴的限量预览阶段。OpenAI 表示，这一阶段性方法是应美国政府的要求，以便在更广泛的发布之前协调能力。

OpenAI 明确指出，他们不认为政府强制的访问流程应该成为长期的默认设置，因为这会限制开发者和网络防御者的访问权限。公司正与政府合作，根据网络安全行政命令框架，为未来的发布开发一套可重复的流程。

社区观点与批评

Hacker News 上技术用户的讨论突显了几个争议点：

政府影响: 用户对美国政府充当 AI 创新的瓶颈表示担忧。一位用户指出：“在我看来，这种程度的讨好当前政府的行为相当可怕。”
定价趋势: 一些开发者观察到，随着时间的推移，“mini”或入门级模型的成本在增加，这表明用户正被迫转向更昂贵的层级。
竞争格局: 对于 Sol 如何与 Claude Fable 5 等竞争对手相比，存在一些怀疑。一些用户指出了 Agent Arena 排行榜，其中 Fable 5 目前在工具编排（tool orchestration）方面排名很高。
版本命名: 批评者质疑为什么“下一代”模型被标记为版本 5.6 而非直接跳转到 GPT-6 大版本更新。

GPT-5.6 Sol, Terra, and Luna 发布说明

GPT-5.6 Sol, Terra, and Luna 发布说明

新模型层级与定价

Prompt Caching 更新

高级能力与智能体工作流

特定领域性能

分层安全保障堆栈与安全框架

安全层级

自动化红队测试

部署与政府协调

社区观点与批评

Sources