GPT-5.6 Sol, Terra, and Luna 發佈說明
GPT-5.6 Sol, Terra, and Luna 發佈說明
OpenAI 已推出 GPT-5.6 模型系列的限量預覽版,引入了由 Sol(旗艦型)、Terra(平衡型)和 Luna(快速且經濟型)組成的分層能力結構。此次發佈重點在於提升程式碼編寫、生物學和網路安全領域的代理(agentic)能力,同時實施更嚴格、分層的安全堆疊,以減輕高風險的攻擊性用途。
新模型分層與定價
OpenAI 正轉向一種命名慣例,其中版本號代表世代,而名稱代表能力分層。這使得不同的分層可以根據各自的進度進行演進。
| 模型 | 定位 | 輸入價格 (每 1M tokens) | 輸出價格 (每 1M tokens) |
|---|---|---|---|
| GPT-5.6 Sol | 旗艦 / 最高智能 | $5.00 | $30.00 |
| GPT-5.6 Terra | 平衡 / 日常工作 | $2.50 | $15.00 |
| GPT-5.6 Luna | 快速 / 最低成本 | $1.00 | $6.00 |
Prompt Caching 更新
GPT-5.6 引入了更具可預測性的 prompt caching,支援顯式快取斷點(cache breakpoints)以及至少 30 分鐘的最小快取壽命。快取寫入的費用按未快取的輸入速率的 1.25 倍計費,而快取讀取則維持 90% 的折扣。
進階能力與代理工作流
GPT-5.6 Sol 引入了兩種新的操作模式來處理複雜、多步驟的推理任務:
maxreasoning effort: 賦予模型在回應之前進行深度推理的額外時間。ultramode: 利用子代理(subagents)來加速複雜工作,超越單一代理的能力。
特定領域性能
- Coding: Sol 在 Terminal-Bench 2.1 上創下了新的技術領先地位(state of the art),特別是在需要工具協調與迭代的命令列工作流方面有所改進。
- Biology: 在 GeneBench v1 上,Sol 在長週期基因組學和定量生物學分析方面的表現優於 GPT-5.5,且使用的 token 數量更少。
- Cybersecurity: Sol 提升了漏洞研究的性能-效率邊界。在 ExploitBench 上,其表現與 Mythos Preview 相當,但使用的輸出 token 數量僅約為其三分之一。在 ExploitGym 中,隨著推理能力的提升,所有三款 5.6 模型在網路安全能力方面均展現出強大的提升。
分層防護堆疊與安全框架
為了在提升模型能力的同時平衡誤用風險,OpenAI 實施了分層防護堆疊。其目標是允許合法的防禦性工作(例如:修補程式開發、安全教育),同時限制禁止的攻擊性活動。
安全層級
- 模型層級訓練: 模型經過訓練,即使面對越獄(jailbreak)嘗試或偽裝意圖,也會拒絕提供禁止的網路安全協助。
- 即時分類器: 誤用分類器會在生成過程中監控輸出。高風險檢測結果可能會暫停生成,以便由更大型的推理模型進行審查。
- 帳戶層級信號: 系統會分析多個對話中的模式,以區分持續性的惡意行為與合法的雙用途安全研究。
- 差異化存取: 在預覽階段,敏感能力預設不會廣泛開放。
自動化紅隊演練
OpenAI 利用了超過 700,000 A100 等效 GPU 小時進行自動化紅隊演練,以識別「通用越獄」(universal jailbreaks)——即在各種情境下皆能奏效而非僅限於特定提示詞的攻擊方式。這部分由第三方人類專家紅隊演練進行補充。
部署與政府協調
GPT-5.6 目前正針對一小組受信任的夥伴進行限量預覽。OpenAI 表示,採取這種分階段實施的方法是應美國政府的要求,以便在更廣泛的發佈前協調能力。
OpenAI 明確指出,他們不認為政府強制要求的存取程序應該成為長期的預設模式,因為這會限制開發者與網路安全防禦者的存取權限。該公司正與政府合作,開發一套可重複的流程,以便在網路安全行政命令框架下進行未來的發佈。
社群觀點與評論
Hacker News 技術用戶之間的討論突顯了幾個關於此次發佈的爭議點:
- 政府影響力: 用戶對美國政府充當 AI 創新瓶頸的擔憂表示關注。一位用戶指出:「我認為這種程度對現任政府的討好行為相當可怕。」
- Pricing 趨勢: 一些開發者觀察到,隨著時間推移,「mini」或入門級模型的成本正在增加,這暗示著用戶正被逼向更昂貴的分層。
- 競爭格局: 對於 Sol 如何與 Claude Fable 5 等競爭對手相比,存在一些懷疑。部分用戶指出了 Agent Arena 排行榜,其中 Fable 5 目前在工具編排(tool orchestration)方面排名很高。
- Version Naming 命名方式: 評論家質疑為什麼「下一代」模型被標記為版本 5.6 而非直接跳到 GPT-6 大版本更新。