Claude Sonnet 5 發布說明

Claude Sonnet 5 Release Notes

Claude Sonnet 5 enhances agentic capabilities and tool use

Claude Sonnet 5 被設計為 Sonnet 系列中最具代理能力(agentic)的模型,使其能夠制定計畫、利用瀏覽器和終端機,並自主運作。它顯著縮小了 Sonnet 級別與 Opus 級別模型之間的性能差距,在維持較低成本結構的同時,提供了接近 Opus 4.8 的能力。

Key Improvements over Sonnet 4.6

Sonnet 5 在推理、編碼、知識工作和工具使用方面提供了實質性的改進。早期存取夥伴報告稱,該模型能夠更有效地完成複雜的多步驟任務而不會停滯,並且經常會在未經提示的情況下進行自我修正和輸出驗證。

具體由夥伴強調的實際應用場景包括:

  • Software Engineering: Handling sustained coding, debugging, and tracing failures to root causes in "brownfield" code (legacy codebases).

  • Automation: Completing end-to-end workflows, such as updating Salesforce account tiers and sending launch announcements.

  • Legal Research: Improving legal research and analysis for plaintiff-law tasks.

  • Data Analysis: Reducing time-to-insight by reasoning in tighter steps when exploring live data.

  • Insurance Workflows: Executing submission intake and loss runs on existing operational systems.

Performance Benchmarks

在使用了 BrowseComp (agentic search) 和 OSWorld-Verified (computer use) 的評估中,Sonnet 5 相較於 Sonnet 4.6 有了嚴格的改進。雖然 Opus 4.8 仍然是追求最高準確度的首選,但 Sonnet 5 允許開發者透過調整「努力程度」(effort)等級來平衡成本與性能。

Safety and Cybersecurity Guardrails

與 Sonnet 4.6 相比,Sonnet 5 表現出較低的非預期行為和幻覺率,使其在代理情境中更加安全。它對提示注入攻擊(prompt injection attacks)更具抵抗力,並且能更好地拒絕惡意請求。

Cybersecurity Limitations

Anthropic 並未刻意針對網絡安全任務對 Sonnet 5 進行訓練。因此,在危險的網絡安全技能方面,例如開發軟件漏洞利用程序(software exploits),其表現明顯遜於 Opus 4.8 和 Mythos 5。在涉及 Firefox 147 漏洞的測試中,Sonnet 5 無法開發出完整的可用漏洞利用程序,儘管由於通用智能的提升,其部分成功率比 Sonnet 4.6 略高。

因為這種能力的輕微提升,Sonnet 5 在推出時預設啟用了實時網絡安全防護,以檢測並攔截危險用法。

Availability and Pricing

Claude Sonnet 5 可供所有 Free, Pro, Max, Team, 和 Enterprise 計劃的用戶使用。它也已整合進 Claude Code 和 Claude Platform。

API Pricing

為了應對分詞器(tokenizer)變更導致的 token 數量增加約 1.0–1.35×,Anthropic 引入了優惠價格以保持轉換成本中性:

Period Input Tokens (per million) Output Tokens (per million)
Through August 31, 2026 $2 $10
After August 31, 2026 $3 $15

開發者可以透過 API 使用識別碼 claude-sonnet-5 來存取該模型。

Sources