Claude Sonnet 5 發布說明
Claude Sonnet 5 Release Notes
Claude Sonnet 5 enhances agentic capabilities and tool use
Claude Sonnet 5 被設計為 Sonnet 系列中最具代理能力(agentic)的模型,使其能夠制定計畫、利用瀏覽器和終端機,並自主運作。它顯著縮小了 Sonnet 級別與 Opus 級別模型之間的性能差距,在維持較低成本結構的同時,提供了接近 Opus 4.8 的能力。
Key Improvements over Sonnet 4.6
Sonnet 5 在推理、編碼、知識工作和工具使用方面提供了實質性的改進。早期存取夥伴報告稱,該模型能夠更有效地完成複雜的多步驟任務而不會停滯,並且經常會在未經提示的情況下進行自我修正和輸出驗證。
具體由夥伴強調的實際應用場景包括:
Software Engineering: Handling sustained coding, debugging, and tracing failures to root causes in "brownfield" code (legacy codebases).
Automation: Completing end-to-end workflows, such as updating Salesforce account tiers and sending launch announcements.
Legal Research: Improving legal research and analysis for plaintiff-law tasks.
Data Analysis: Reducing time-to-insight by reasoning in tighter steps when exploring live data.
Insurance Workflows: Executing submission intake and loss runs on existing operational systems.
Performance Benchmarks
在使用了 BrowseComp (agentic search) 和 OSWorld-Verified (computer use) 的評估中,Sonnet 5 相較於 Sonnet 4.6 有了嚴格的改進。雖然 Opus 4.8 仍然是追求最高準確度的首選,但 Sonnet 5 允許開發者透過調整「努力程度」(effort)等級來平衡成本與性能。
Safety and Cybersecurity Guardrails
與 Sonnet 4.6 相比,Sonnet 5 表現出較低的非預期行為和幻覺率,使其在代理情境中更加安全。它對提示注入攻擊(prompt injection attacks)更具抵抗力,並且能更好地拒絕惡意請求。
Cybersecurity Limitations
Anthropic 並未刻意針對網絡安全任務對 Sonnet 5 進行訓練。因此,在危險的網絡安全技能方面,例如開發軟件漏洞利用程序(software exploits),其表現明顯遜於 Opus 4.8 和 Mythos 5。在涉及 Firefox 147 漏洞的測試中,Sonnet 5 無法開發出完整的可用漏洞利用程序,儘管由於通用智能的提升,其部分成功率比 Sonnet 4.6 略高。
因為這種能力的輕微提升,Sonnet 5 在推出時預設啟用了實時網絡安全防護,以檢測並攔截危險用法。
Availability and Pricing
Claude Sonnet 5 可供所有 Free, Pro, Max, Team, 和 Enterprise 計劃的用戶使用。它也已整合進 Claude Code 和 Claude Platform。
API Pricing
為了應對分詞器(tokenizer)變更導致的 token 數量增加約 1.0–1.35×,Anthropic 引入了優惠價格以保持轉換成本中性:
| Period | Input Tokens (per million) | Output Tokens (per million) |
|---|---|---|
| Through August 31, 2026 | $2 | $10 |
| After August 31, 2026 | $3 | $15 |
開發者可以透過 API 使用識別碼 claude-sonnet-5 來存取該模型。