GPT-5.6 Sol, Terra, and Luna 發佈說明

GPT-5.6 Sol, Terra, and Luna 發佈說明

OpenAI 已推出 GPT-5.6 模型系列的限量預覽版,引入了由 Sol(旗艦型)、Terra(平衡型)和 Luna(快速且經濟型)組成的分層能力結構。此次發佈重點在於提升程式碼編寫、生物學和網路安全領域的代理(agentic)能力,同時實施更嚴格、分層的安全堆疊,以減輕高風險的攻擊性用途。

新模型分層與定價

OpenAI 正轉向一種命名慣例,其中版本號代表世代,而名稱代表能力分層。這使得不同的分層可以根據各自的進度進行演進。

模型 定位 輸入價格 (每 1M tokens) 輸出價格 (每 1M tokens)
GPT-5.6 Sol 旗艦 / 最高智能 $5.00 $30.00
GPT-5.6 Terra 平衡 / 日常工作 $2.50 $15.00
GPT-5.6 Luna 快速 / 最低成本 $1.00 $6.00

Prompt Caching 更新

GPT-5.6 引入了更具可預測性的 prompt caching,支援顯式快取斷點(cache breakpoints)以及至少 30 分鐘的最小快取壽命。快取寫入的費用按未快取的輸入速率的 1.25 倍計費,而快取讀取則維持 90% 的折扣。

進階能力與代理工作流

GPT-5.6 Sol 引入了兩種新的操作模式來處理複雜、多步驟的推理任務:

  • max reasoning effort: 賦予模型在回應之前進行深度推理的額外時間。
  • ultra mode: 利用子代理(subagents)來加速複雜工作,超越單一代理的能力。

特定領域性能

  • Coding: Sol 在 Terminal-Bench 2.1 上創下了新的技術領先地位(state of the art),特別是在需要工具協調與迭代的命令列工作流方面有所改進。
  • Biology: 在 GeneBench v1 上,Sol 在長週期基因組學和定量生物學分析方面的表現優於 GPT-5.5,且使用的 token 數量更少。
  • Cybersecurity: Sol 提升了漏洞研究的性能-效率邊界。在 ExploitBench 上,其表現與 Mythos Preview 相當,但使用的輸出 token 數量僅約為其三分之一。在 ExploitGym 中,隨著推理能力的提升,所有三款 5.6 模型在網路安全能力方面均展現出強大的提升。

分層防護堆疊與安全框架

為了在提升模型能力的同時平衡誤用風險,OpenAI 實施了分層防護堆疊。其目標是允許合法的防禦性工作(例如:修補程式開發、安全教育),同時限制禁止的攻擊性活動。

安全層級

  1. 模型層級訓練: 模型經過訓練,即使面對越獄(jailbreak)嘗試或偽裝意圖,也會拒絕提供禁止的網路安全協助。
  2. 即時分類器: 誤用分類器會在生成過程中監控輸出。高風險檢測結果可能會暫停生成,以便由更大型的推理模型進行審查。
  3. 帳戶層級信號: 系統會分析多個對話中的模式,以區分持續性的惡意行為與合法的雙用途安全研究。
  4. 差異化存取: 在預覽階段,敏感能力預設不會廣泛開放。

自動化紅隊演練

OpenAI 利用了超過 700,000 A100 等效 GPU 小時進行自動化紅隊演練,以識別「通用越獄」(universal jailbreaks)——即在各種情境下皆能奏效而非僅限於特定提示詞的攻擊方式。這部分由第三方人類專家紅隊演練進行補充。

部署與政府協調

GPT-5.6 目前正針對一小組受信任的夥伴進行限量預覽。OpenAI 表示,採取這種分階段實施的方法是應美國政府的要求,以便在更廣泛的發佈前協調能力。

OpenAI 明確指出,他們不認為政府強制要求的存取程序應該成為長期的預設模式,因為這會限制開發者與網路安全防禦者的存取權限。該公司正與政府合作,開發一套可重複的流程,以便在網路安全行政命令框架下進行未來的發佈。

社群觀點與評論

Hacker News 技術用戶之間的討論突顯了幾個關於此次發佈的爭議點:

  • 政府影響力: 用戶對美國政府充當 AI 創新瓶頸的擔憂表示關注。一位用戶指出:「我認為這種程度對現任政府的討好行為相當可怕。」
  • Pricing 趨勢: 一些開發者觀察到,隨著時間推移,「mini」或入門級模型的成本正在增加,這暗示著用戶正被逼向更昂貴的分層。
  • 競爭格局: 對於 Sol 如何與 Claude Fable 5 等競爭對手相比,存在一些懷疑。部分用戶指出了 Agent Arena 排行榜,其中 Fable 5 目前在工具編排(tool orchestration)方面排名很高。
  • Version Naming 命名方式: 評論家質疑為什麼「下一代」模型被標記為版本 5.6 而非直接跳到 GPT-6 大版本更新。

Sources