GPT-5.6 Sol、Terra、Luna リリースノート
GPT-5.6 Sol、Terra、Luna リリースノート
OpenAI は GPT-5.6 モデルシリーズの限定プレビューを開始し、Sol(フラッグシップ)、Terra(バランス型)、Luna(高速・低コスト)という階層化された機能構造を導入しました。このリリースは、コーディング、バイオロジー、サイバーセキュリティにおけるエージェント機能の向上に焦点を当て、リスクの高い攻撃的利用を抑制するために、より厳格で層状の安全スタックを実装しています。
新しいモデル階層と価格設定
OpenAI は、バージョン番号が世代を、名前が機能階層を表す命名規則へ移行しています。これにより、各階層が独自のスケジュールで進化できるようになります。
| Model | Positioning | Input Price (per 1M tokens) | Output Price (per 1M tokens) |
|---|---|---|---|
| GPT-5.6 Sol | フラッグシップ / 最高知能 | $5.00 | $30.00 |
| GPT-5.6 Terra | バランス型 / 日常業務 | $2.50 | $15.00 |
| GPT-5.6 Luna | 高速 / 最低コスト | $1.00 | $6.00 |
プロンプトキャッシュの更新
GPT-5.6 は、明示的なキャッシュブレークポイントと最低 30 分のキャッシュ寿命をサポートする、より予測可能なプロンプトキャッシュを導入しました。キャッシュ書き込みは非キャッシュ入力レートの 1.25 倍で課金され、キャッシュ読み取りは 90% の割引が適用されます。
高度な機能とエージェントワークフロー
GPT-5.6 Sol は、複雑なマルチステップ推論タスクを処理するための 2 つの新しい運用モードを導入します:
maxreasoning effort: 応答前に深く推論するための追加時間をモデルに付与します。ultramode: サブエージェントを活用して複雑な作業を加速し、単一エージェントの能力を超えます。
ドメイン別パフォーマンス
- コーディング: Sol は Terminal-Bench 2.1 で新たな最先端を設定し、ツールの協調と反復を要するコマンドラインワークフローを特に改善します。
- バイオロジー: GeneBench v1 において、Sol は長期的なゲノミクスおよび定量バイオロジー分析で GPT-5.5 を上回り、トークン使用量も少なく済みます。
- サイバーセキュリティ: Sol は脆弱性研究における性能‑効率のフロンティアを向上させます。ExploitBench では Mythos Preview と競合しながら、出力トークンを約 1/3 に抑えます。ExploitGym では、3 つの 5.6 モデルすべてが推論が増えるにつれてサイバー能力で大幅な改善を示します。
層状セーフガードスタックと安全フレームワーク
モデルのパワー増大と誤用リスクのバランスを取るため、OpenAI は層状セーフガードスタックを実装しました。目的は、正当な防御作業(例: パッチ開発、セキュリティ教育)を可能にしつつ、禁止された攻撃的活動を制限することです。
安全レイヤー
- モデルレベルのトレーニング: モデルは、ジャイルブレイク試行や意図を隠蔽された場合でも、禁止されたサイバー支援を拒否するよう訓練されています。
- リアルタイム分類器: 誤用分類器が生成中の出力を監視します。高リスクと判断された場合、より大きな推論モデルによるレビューのために生成が一時停止されることがあります。
- アカウントレベルのシグナル: 複数の会話にわたるパターンを分析し、継続的な悪意ある行動と正当なデュアルユースのセキュリティ研究を区別します。
- 差別化されたアクセス: 敏感な機能は、プレビュー段階ではデフォルトで広く提供されません。
自動レッドチーミング
OpenAI は、700,000 時間以上の A100 相当 GPU 時間を用いて自動レッドチーミングを実施し、さまざまなコンテキストで機能する「ユニバーサルジャイルブレイク」を特定しました。これに加えて、サードパーティの人間専門家によるレッドチーミングも行われています。
デプロイと政府との協調
GPT-5.6 は現在、信頼できるパートナーの小規模グループ向けに限定プレビューが提供されています。OpenAI は、この段階的アプローチは米国政府の要請に応じて、広範なリリースに先立ち機能調整を行うために取られたと述べています。
OpenAI は、政府主導のアクセスプロセスが長期的なデフォルトになるべきではないと明言しています。これは開発者やサイバー防御者のアクセスを制限するためです。同社は、サイバー行政命令の枠組みの下で将来のリリースに向けた再現可能なプロセスを行政と共に策定しています。
コミュニティの視点と批判
Hacker News の技術ユーザー間の議論では、リリースに関していくつかの争点が浮き彫りになっています:
- 政府の影響: ユーザーは米国政府が AI イノベーションのボトルネックになることを懸念しています。あるユーザーは「現政権へのこの程度の追従はかなり怖い」と述べています。
- 価格動向: 一部の開発者は、時間とともに「ミニ」やエントリーレベルモデルのコストが上昇する傾向を指摘し、ユーザーがより高価な階層へ追い込まれていると指摘しています。
- 競争環境: Claude Fable 5 などの競合製品との比較に懐疑的です。ユーザーはツールオーケストレーションで高順位を占める Agent Arena のリーダーボードを例に挙げています。
- バージョン命名: 批評者は、次世代モデルが GPT-6 への大幅なバージョンジャンプではなく 5.6 とラベル付けされている理由を問いかけています。
要約
OpenAI は GPT-5.6 シリーズを導入し、フラッグシップの Sol モデルに高度なエージェント機能を搭載し、バランス型の Terra と低コストの Luna を含む階層化システムでさまざまなニーズに対応しています。